Crawler
行者小朱
stay hungry,stay foolish
展开
-
Python3爬虫之二网页解析【爬取自己CSDN博客信息】
与Java类比,Java的网页解析有Jsoup工具,Python的网页解析工具对应的是BeautifulSoup。详情可以阅读其官方文档。 这里以爬取我的CSDN博客信息,包括获取每篇博客的标题、链接、书写日期、访问量、评论数量等信息为例,结合BeautifulSoup,进行网页的解析,详细的说明在代码的注解中讲解。# coding=utf-8# 对CSDN博客信息进行爬原创 2017-08-31 13:18:22 · 6644 阅读 · 1 评论 -
Python3爬虫之三网页解析【爬取豆瓣Top电影】
这里再练习一下对豆瓣Top250电影的爬取,其首页长这样 我们需要的信息是电影的序号、电影的名字,因此直接按上一节的方法查看网页代码,解析网页结构,提取我们所需要的信息,完成代码如下:# coding = utf-8import refrom urllib import requestfrom urllib import errorclass DouBan原创 2017-08-31 13:46:53 · 5679 阅读 · 1 评论 -
Python3爬虫之五网页下载器的几种方法【Python使用cookie模拟登录CSDN】
(1)直接请求from urllib import request# 目标网址url = "http://www.zhihu.com"# 直接请求response = request.urlopen(url)# 获取请求的状态码,200表示成功# 读取内容if(response.getcode() == 200): print(response.read())(原创 2017-09-05 11:26:34 · 2302 阅读 · 1 评论 -
Python3爬虫之六网页的初步分析【抓取豆瓣最新电影影评并用词云显示】
在做本章内容之前,先做两件事:1、安装结巴分词jieba;2、安装云词库wordcloud一、安装结巴分词1、上Git上下载Jieba源码:https://github.com/xingzhexiaozhu/jieba2、进入对应的文件目录,执行 python setup.py install安装完成二、安装云词库1、进入http://www.lfd.uci原创 2017-09-21 13:36:31 · 2614 阅读 · 0 评论 -
Python3爬虫之四简单爬虫架构【爬取百度百科python词条网页】
前面介绍了Python写简单的爬虫程序,这里参考慕课网Python开发简单爬虫总结一下爬虫的架构。让我们的爬虫程序模块划分更加明确,代码具有更佳的逻辑性、可读性。因此,我们可以将整个爬虫程序总结为以下5个模块: 1、爬虫调度端:负责启动、停止、监控爬虫程序的运行; 2、URL管理器:负责爬虫执行过程中待爬取的URL队列和已爬取的URL队列的管理【防重复、原创 2017-09-04 19:53:48 · 2403 阅读 · 1 评论 -
Java爬虫系列之四模拟登录【模拟登录人人网】
通过前面的学习,我们已经可以对不需要登录的网页正常访问,但现在的网页大部分都需要用户注册,因此这里以学人人网为例,学习一下网站的模拟登录。 首先对http://www.renren.com/进行爬取,对得到的内容进行分析:package RenRen;import org.apache.http.client.methods.CloseableHttpRespon原创 2017-08-29 11:35:28 · 8592 阅读 · 4 评论 -
Java爬虫系列之三模拟浏览器【模块浏览OSChina网站】
第一节的学习使得我们学会使用HttpClient请求网页的基本方法;第二节进一步学习了Jsoup从网页中解析出所需要的内容。但在请求时,我们仍可能遇到目标网址没有错,但就是请求得不到响应的情况,比如OSChina、CSDN等网址,因此这里必须伪装成浏览器才可以进行正常的访问。 模拟浏览器在代码的实现层,就是给请求加上Header,那么如何看应该封装的Header内容呢?运用浏览器原创 2017-08-29 11:01:43 · 4899 阅读 · 0 评论 -
Java爬虫系列之二网页解析【爬取知乎首页信息】
上一节以一个小Demo开始了Java的爬虫之旅,熟悉了HttpClient请求资源得到返回结果,得到初步处理的结果。但对于得到的网页是怎么解析的呢?这里讨论一下Jsoup的使用。 Jsoup是一款Java的HTML解析器,提供了一套非常省力的API,可以方便的从一个URL、文件、或字符串中解析出HTML,然后使用DOM或者Select选择出页面元素、取出数据。如下:Strin原创 2017-08-23 18:08:18 · 3338 阅读 · 2 评论 -
Java爬虫系列之一HttpClient【爬取京东Python书籍信息】
一、概念 HttpClient 是Apache Jakarta Common 下的子项目,可以用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包,并且它支持 HTTP 协议最新的版本和建议。 HttpClient实现了所有HTTP的方法(GET/POST/PUT/HEAD等),支持自动转向、HTTPS以及代理服务器能。二、HttpCli原创 2017-08-21 20:13:34 · 3209 阅读 · 1 评论 -
Python3爬虫之一初试
前面系列学习了Java的爬虫,相比而言,楼主更倾向于Python简洁易懂。与Java类似,都要封装请求,Python2系列使用的是urllib2,Python3后全部融合为urllib。 下面以请求知乎首页的例子,说明Python的简单使用。# coding = utf-8from urllib import request# 目标网址url = "http://w原创 2017-08-31 13:02:10 · 857 阅读 · 0 评论