eclipse-开发Python爬虫

下载Python插件配置开发环境
https://jingyan.baidu.com/article/a3f121e4ac8261fc9052bb1d.html
Python3导入cookielib失败
Python 3 改成 http.cookiejar了,所以只要改成import http.cookiejar就自动导入cookiejar了

URL管理器的作用:防止重复抓取、循环抓取。
URL管理器的功能:
1、判断待添加的URL是否本来就在容器中
2、添加心得URL到待爬取集合
3、判断是否还有带爬取URL
4、获取带爬取URL
URL管理器实现方式:内存(python内存,set()),关系数据库(MySQL, urls(url, is_crawled)),缓存数据库(redis, set)

网页下载器(核心):将互联网的URL对应网页下载到本地的工具。目的是为了将网页下载到本地才能够进行后期的分析和处理)
网页下载器类似于网页浏览器,会将URL对应的互联网网页以HTML的形式下载到本地,存储成本地文件或者本地字符串,然后进行后期的分析和处理。
网页下载器:
urllib2:Python官方基础模块(直接的URL下载或者向网页提交一些用户输入的数据 甚至支持登陆网页的cookie处理 和需要代理访问的代理处理等这些增强功能)
requests:更强大的第三方软件
urllib2的三种下载网页的方法:
1、给定URL,传送给urllib2.urlopen(url),实现网页的下载。对应代码为:

网页解析器类型:
模糊匹配
1正则表达式,使用字符串的模糊匹配,不适用于复杂的
结构化解析-DOM(Document Object Model)树
2Python自带模块(http.parser)
3主要使用,为第三方插件(Beautiful Soup)
4第三方插件(lxml)

确定目标-–>分析目标(URL格式,数据格式,网页编码)—>编写代码
分析目标:制定抓取网站数据的策略;
URL格式:用来限定我们要抓取的页面的范围,如果范围不进行限定的话就会抓取去多不相关的网页,造成资源浪费。
数据格式:分析每个词条页面的标题等,数据所在的标签的格式。
网页编码:在代码解析器上指定网页的编码格式,然后才能进行正确的解析。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值