下载Python插件配置开发环境
https://jingyan.baidu.com/article/a3f121e4ac8261fc9052bb1d.html
Python3导入cookielib失败
Python 3 改成 http.cookiejar了,所以只要改成import http.cookiejar就自动导入cookiejar了
URL管理器的作用:防止重复抓取、循环抓取。
URL管理器的功能:
1、判断待添加的URL是否本来就在容器中
2、添加心得URL到待爬取集合
3、判断是否还有带爬取URL
4、获取带爬取URL
URL管理器实现方式:内存(python内存,set()),关系数据库(MySQL, urls(url, is_crawled)),缓存数据库(redis, set)
网页下载器(核心):将互联网的URL对应网页下载到本地的工具。目的是为了将网页下载到本地才能够进行后期的分析和处理)
网页下载器类似于网页浏览器,会将URL对应的互联网网页以HTML的形式下载到本地,存储成本地文件或者本地字符串,然后进行后期的分析和处理。
网页下载器:
urllib2:Python官方基础模块(直接的URL下载或者向网页提交一些用户输入的数据 甚至支持登陆网页的cookie处理 和需要代理访问的代理处理等这些增强功能)
requests:更强大的第三方软件
urllib2的三种下载网页的方法:
1、给定URL,传送给urllib2.urlopen(url),实现网页的下载。对应代码为:
网页解析器类型:
模糊匹配
1正则表达式,使用字符串的模糊匹配,不适用于复杂的
结构化解析-DOM(Document Object Model)树
2Python自带模块(http.parser)
3主要使用,为第三方插件(Beautiful Soup)
4第三方插件(lxml)
确定目标-–>分析目标(URL格式,数据格式,网页编码)—>编写代码
分析目标:制定抓取网站数据的策略;
URL格式:用来限定我们要抓取的页面的范围,如果范围不进行限定的话就会抓取去多不相关的网页,造成资源浪费。
数据格式:分析每个词条页面的标题等,数据所在的标签的格式。
网页编码:在代码解析器上指定网页的编码格式,然后才能进行正确的解析。