python爬虫-爬虫基础（简单实用）

原创已于 2023-03-24 22:17:54 修改 · 348 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#python #爬虫 #开发语言

于 2022-08-03 21:38:39 首次发布

爬虫专栏收录该内容

10 篇文章

订阅专栏

本文探讨了Python在爬虫领域的优势，包括其API的易用性、BeautifulSoup的文档处理、快速开发和丰富的资源。介绍了通用、聚焦、增量式和深层网络爬虫的区别及应用场景。

部署运行你感兴趣的模型镜像

爬虫用处

模拟客户端发送网络请求，接收请求响应，按照一定的规则自动的抓取互联网信息的程序

爬虫应用方向

数据采集、搜索引擎、软件测试、短信轰炸

为什么用python做爬虫

(1) 抓取网页本身的接口
相比其他动态脚本语言(如Perl、Shell)，Python的urllib2包提供了较为完整的访问网页文档的API;
相比与其他静态编程语言(如Java、C#、C++)，Python抓取网页文档的接口更简洁。
此外，抓取网页有时候需要模拟浏览器的行为，很多网站对于生硬的爬虫抓取都是封杀的。
这时我们需要模拟User Agent的行为构造合适的请求，譬如模拟用户登陆、模拟Session/Cookie的存储和设置。
在Python里都有非常优秀的第三方包帮你搞定，如Requests或Mechanize。

(2) 网页抓取后的处理
抓取的网页通常需要处理，比如过滤Html标签，提取文本等。
Python的Beautiful Soup提供了简洁的文档处理功能，能用极短的代码完成大部分文档的处理。
其实以上功能很多语言和工具都能做，但是用Python能够干得最快、最干净，正如这句“Life is short，you need Python”。

(3) 开发效率高
因为爬虫的具体代码得根据网站不同而修改的，而Python这种灵活的脚本语言特别适合这种任务。

(4) 上手快
网络上Python的教学资源很多，便于大家学习，出现问题也很容易找到相关资料。另外，Python还有强大的成熟爬虫框架的支持，比如Scrapy。

爬虫种类

1.通用网络爬虫
爬取目标资源在全互联网中，爬取目标数据巨大。对爬取性能要求非常高。应用于大型搜索引擎中，有非常高的应用价值。
通用网络爬虫的基本构成：初始URL集合，URL队列，页面爬行模块，页面分析模块，页面数据库，链接过滤模块等构成。
通用网络爬虫的爬行策略：主要有深度优先爬行策略和广度优先爬行策略。

2.聚焦网络爬虫
将爬取目标定位在与主题相关的页面中
主要应用在对特定信息的爬取中，主要为某一类特定的人群提供服务
聚焦网络爬虫的基本构成：初始URL,URL队列，页面爬行模块，页面分析模块，页面数据库，连接过滤模块，内容评价模块，链接评价模块等构成

3.增量式网络爬虫
增量式更新指的是在更新的时候只更新改变的地方，而未改变的地方则不更新
只爬取内容发生变化的网页或者新产生的网页
一定程度上能保证所爬取的网页，尽可能是新网页

4.深层网络爬虫
表层网页：不需要提交表单，使用静态的链接就能够到达的静态网页
深层网页：隐藏在表单后面，不能通过静态链接直接获得，是需要提交一定的关键词之后才能够获取得到的网页。
深层网络爬虫最重要的部分即为表单填写部分
深层网络爬虫的基本构成：URL列表，LVS列表（LVS指的是标签/数值集合，即填充表单的数据源）爬行控制器，解析器，LVS控制器，表单分析器，表单处理器，响应分析器等
深层网络爬虫表单填写有两种类型：
基于领域知识的表单填写（建立一个填写表单的关键词库，在需要的时候，根据语义分析选择对应的关键词进行填写）
基于网页结构分析的表单填写（一般是领域只是有限的情况下使用，这种方式会根据网页结构进行分析，并自动的进行表单填写）

您可能感兴趣的与本文相关的镜像