eclipse-开发Python爬虫

最新推荐文章于 2023-08-09 13:15:00 发布

多喝热水　

最新推荐文章于 2023-08-09 13:15:00 发布

阅读量692

点赞数 1

分类专栏： Python相关

本文链接：https://blog.csdn.net/qq_35350265/article/details/99471451

版权

Python相关专栏收录该内容

47 篇文章 2 订阅

订阅专栏

下载Python插件配置开发环境
https://jingyan.baidu.com/article/a3f121e4ac8261fc9052bb1d.html
Python3导入cookielib失败
Python 3 改成 http.cookiejar了，所以只要改成import http.cookiejar就自动导入cookiejar了

URL管理器的作用：防止重复抓取、循环抓取。
URL管理器的功能:
1、判断待添加的URL是否本来就在容器中
2、添加心得URL到待爬取集合
3、判断是否还有带爬取URL
4、获取带爬取URL
URL管理器实现方式：内存（python内存，set（）），关系数据库（MySQL， urls(url, is_crawled)）,缓存数据库（redis， set）

网页下载器（核心）：将互联网的URL对应网页下载到本地的工具。目的是为了将网页下载到本地才能够进行后期的分析和处理）
网页下载器类似于网页浏览器，会将URL对应的互联网网页以HTML的形式下载到本地，存储成本地文件或者本地字符串，然后进行后期的分析和处理。
网页下载器：
urllib2：Python官方基础模块（直接的URL下载或者向网页提交一些用户输入的数据甚至支持登陆网页的cookie处理和需要代理访问的代理处理等这些增强功能）
requests：更强大的第三方软件
urllib2的三种下载网页的方法：
1、给定URL，传送给urllib2.urlopen(url),实现网页的下载。对应代码为：

网页解析器类型：
模糊匹配
1正则表达式，使用字符串的模糊匹配，不适用于复杂的
结构化解析-DOM（Document Object Model）树
2Python自带模块（http.parser)
3主要使用，为第三方插件(Beautiful Soup)
4第三方插件(lxml)

确定目标-–>分析目标(URL格式，数据格式，网页编码)—>编写代码
分析目标：制定抓取网站数据的策略；
URL格式：用来限定我们要抓取的页面的范围，如果范围不进行限定的话就会抓取去多不相关的网页，造成资源浪费。
数据格式：分析每个词条页面的标题等，数据所在的标签的格式。
网页编码：在代码解析器上指定网页的编码格式，然后才能进行正确的解析。