![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
淇怪君
love life and technology
展开
-
第五章 网页下载器和urllib2模块
5.1 网页下载器简介 网页下载器:将互联网上的URL对应的网页下载到本地的工具。 Python的网页下载器 urllib2 : Python官方基础模块requests : 第三方包更强大 5.2 urllib2下载网页的几种方法 方法一: 方法二: 方法三: 有些网页需要登录才能访问,则需要添加cookie的处理,使用HTTPCookieProcessor原创 2017-02-01 19:39:01 · 550 阅读 · 0 评论 -
第四章 URL管理器和实现方法
4.1 URL管理器 URL管理器管理待抓取的URL集合和已抓取的URL集合,防止重复抓取和循环抓取,如果两个URL相互指向,爬虫就会陷入死循化。 URL管理器支持的功能如下: 4.2 URL管理器的实现方法 内存,缓存数据库:选取set,因为set可以去除重复元素。由于缓存数据库的高性能,大型互联网公司将URL存储在缓存数据库中。原创 2017-02-01 19:38:08 · 2320 阅读 · 0 评论 -
第三章 简单的爬虫架构
3.1 简单的爬虫架构 爬虫调度端:用于启动爬虫,监视爬虫或者记录爬虫的运行情况。URL 管理器:管理已经爬取过的URL 和将要爬取的URL网页下载器:从URL 管理器中取出一个将要爬取的URL,传递给网页下载器。网页下载器会将URL指向的网页下载下来,存储成一个字符串,这个字符串传递给网页解析器进行解析,一方面会解析出有价值的数据,另一方面,每个网页都含有一些指向其他网页的URL,原创 2017-02-01 19:37:28 · 436 阅读 · 0 评论 -
慕课网 Python 开发简答爬虫课程笔记
在慕课网上跟了一门课《python开发简单爬虫》,收益颇多,在这里记录下部分课程笔记,便于以后的回顾。 非常感谢讲师乒乓球鸡蛋的分享,感谢! 课程链接:http://www.imooc.com/video/10677 第三章:简单的爬虫架构 3.1 简单的爬虫架构3.2 简单的爬虫架构的动态运行流程 第四章:URL管理器和实现方法 4.1 URL管理器4.2 URL管理器的实现方法原创 2017-02-01 19:36:43 · 1445 阅读 · 0 评论 -
第六章 网页解析器和BeautifulSoup第三方插件
6.1 网页解析器简介 网页解析器:从网页中提取有价值数据的工具(对于搜素引擎来说,它可以提取出网页中所有的URL,但是对于定向爬虫来说,除了提取出待爬取网页中所有的URL之外,同时也会提取出有价值的数据)。网页解析器会以下载好的Html 网页字符串作为输入,然后提取出游价值的数据和新的待爬取的URL列表 Python 有几种网页解析器? 1.正则表达式: 会将整个网页文档原创 2017-02-01 19:39:45 · 1927 阅读 · 0 评论