关闭

使用Git在码云上上传项目

一、 码云:中国版的github       最近两年开源中国的业务发生了很大的变化,依托于社区的基础,我们一共构建了四大业务: 社区(oschina.net) --- 为开发者提供发现、学习和交流的平台; 人才(job.oschina.net) --- 为开发者提供求职就业的平台; 码云(git.oschina.net) --- 为开发者提供云端开发环境和工具;...
阅读(153) 评论(0)

python爬取新浪新闻存储到excel

一、运行环境 (1) BeautifulSoup的导入:pip install BeautifulSoup4 (2) requests的导入:pip install requests (3) re的导入:pip install re (4) pandas的导入:pip install pandas 二、完整代码    # 获取新闻的标题,内容,时间和评论数 im...
阅读(213) 评论(0)

Spring思维导图

spring mvc简介与运行原理 Spring的模型-视图-控制器(MVC)框架是围绕一个DispatcherServlet来设计的,这个Servlet会把请求分发给各个处理器,并支持可配置的处理器映射、视图渲染、本地化、时区与主题渲染等,甚至还能支持文件上传。 (1) Http请求:客户端请求提交到DispatcherServlet。(2) 寻找处理器:由DispatcherS...
阅读(198) 评论(0)

windows下git 使用教程

安装好软件后,桌面右击点击Git Bash打开程序,是一个shell脚本命令,类似于linux的终端命令。 一、使用git上传项目 1.cd d:/github  进入一个D盘中github文件夹 2. git --version 查看版本号 3.git config --global user.name zcc888  设置你的用户名  huan...
阅读(171) 评论(0)

Scrapy框架利用CrawlSpider创建自动爬虫

一、适用条件    可以对有规律或者无规律的网站进行自动爬取  二、代码讲解   (1)创健scrapy项目 E:myweb>scrapy startproject mycwpjt New Scrapy project 'mycwpjt', using template directory 'd:\\python35\\lib\\site-packages\\s...
阅读(427) 评论(2)

编写自动爬取网页的爬虫

一、item的编写 # -*- coding: utf-8 -*- # Define here the models for your scraped items # # See documentation in: # http://doc.scrapy.org/en/latest/topics/items.html import scrapy class AutopjtItem(scr...
阅读(236) 评论(0)

Nginx服务搭建负载均衡,反向代理,缓存加速,访问分布式文件系统高可用

一,Nginx         Nginx (engine x) 是一个高性能的HTTP和反向代理服务器,也是一个IMAP/POP3/SMTP服务器。AS13000系统Nginx为1.9.2版本。Nginx具有很多非常优越的特性: 在连接高并发的情况下,具有较好的性能,支持负载均衡,实现可扩展的浏量管理;使Web服务器更灵活,更高效,更安全;能够快速灵活且可靠的传送流视频和音频内容...
阅读(382) 评论(5)

GitHub+Hexo 搭建个人网站详细教程

什么是Hexo ? Hexo是一款基于Node.js的静态博客框架,依赖少易于安装使用,可以方便的生成静态网页托管在GitHub和Heroku上,是搭建博客的首选框架。这里我们选用的是GitHub,你没看错,全球最大的同性恋交友网站(逃……)。Hexo同时也是GitHub上的开源项目,参见:hexojs/hexo 如果想要更加全面的了解Hexo,可以到其官网 Hexo 了解更...
阅读(257) 评论(0)

获取斗鱼图片

一、总体思路 从网页代码里获得你要图片。这里我们需要简单的分析一下该网页。 当我们把鼠标移到地址上的时候就会出现该图片,这个就是我们要爬取的图片。 这个图片是在 data-original 后面,我们就需要进行匹配,通过正则表达式很快就可以达到目的。 网页代码片段 1 img data-original="https://rpic.do...
阅读(205) 评论(0)

github使用

什么是Github 说到什么事github,我们先看wikipedia的描述“GitHub是一个利用Git进行版本控制、专门用于存放软件代码与内容的共享虚拟主机服务。它由GitHub公司(曾称Logical Awesome)的开发者Chris Wanstrath、PJ Hyett和Tom Preston-Werner使用Ruby on Rails编写而成。” 准备工作 下...
阅读(291) 评论(0)

好用的Markdown编辑器总结

Markdown 是一种简单的、轻量级的标记语法。用户可以使用诸如 * # 等简单的标记符号以最小的输入代价生成极富表现力的文档。         Markdown具有很多优点: 写作中添加简单符号即完成排版,所见即所得。让你专注于文字而不是排版。 格式转换方便,Markdown 的文本你可以轻松转换为 html、pdf等。 可以保存称纯文本   支持Markdown的编辑器太多,功...
阅读(172) 评论(0)

学习Scrapy框架

一、Scrapy介绍 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。 所谓网络爬虫,就是一个在网上到处或定向抓取数据的程序,当然,这种说法不够专业,更专业的描述就是,抓取特定网站网页的HTML数据。抓取网页的一般方法是,定义一个入口页面,然后一般一个页面会有其他页面的URL,于是从当前页面获取到这些URL加...
阅读(146) 评论(0)

爬取今日头条上的图片

一、动态页面逆向分析爬取 (1)今日头条搜索界面如上: (2)页面分析获取Jason数据格式 http://www.toutiao.com/search_content/?offset=20&format=json&keyword=美女&autoload=true&count=20&cur_tab=1 二、爬取完整代码块# coding=utf-8 import json import os imp...
阅读(171) 评论(0)

Python 成最热门编程语言

最近,调查结果已公布:Java 被评为最流行的语言,JavaScript 是最常用的语言,而 Go 被认为是最有前途的语言。 一、编程语言 可以看到,JavaScript 是使用最多的语言,Python 是最多人想去尝试的语言,Java 则在流行度上独领风骚。注意,下图数值皆为百分比(%)。 绿色:频繁使用 橙色:即将采纳/迁移  二、...
阅读(154) 评论(0)

常见python爬虫框架

一、python爬虫框架    一些爬虫项目的半成品 二、常见python爬虫框架   (1)Scrapy:很强大的爬虫框架,可以满足简单的页面爬取(比如可以明确获知url pattern的情况)。用这个框架可以轻松爬下来如亚马逊商品信息之类的数据。但是对于稍微复杂一点的页面,如weibo的页面信息,这个框架就满足不了需求了。   (2)Crawle...
阅读(268) 评论(0)
44条 共3页1 2 3 下一页 尾页
    个人资料
    • 访问:169419次
    • 积分:5271
    • 等级:
    • 排名:第5529名
    • 原创:220篇
    • 转载:177篇
    • 译文:120篇
    • 评论:34条
    个人博客
    最新评论