Python爬虫基础

最新推荐文章于 2023-03-04 21:59:20 发布

VIP文章志者～不俗

最新推荐文章于 2023-03-04 21:59:20 发布

阅读量189

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dxdfe/article/details/92794437

版权

Python非常适合用来开发网页爬虫，理由如下：
1、抓取网页本身的接口
相比与其他静态编程语言，如java，c#，c++，python抓取网页文档的接口更简洁；相比其他动态脚本语言，如perl，shell，python的urllib包提供了较为完整的访问网页文档的API。（当然ruby也是很好的选择）
此外，抓取网页有时候需要模拟浏览器的行为，很多网站对于生硬的爬虫抓取都是封杀的。这是我们需要模拟user agent的行为构造合适的请求，譬如模拟用户登陆、模拟session/cookie的存储和设置。在python里都有非常优秀的第三方包帮你搞定，如Requests，mechanize
2、网页抓取后的处理
抓取的网页通常需要处理，比如过滤html标签，提取文本等。python的beautifulsoap提供了简洁的文档处理功能，能用极短的代码完成大部分文档的处理。
其实以上功能很多语言和工具都能做，但是用python能够干得最快，最干净。

Life is short, you need python.
PS：python2.x和python3.x有很大不同，本文只讨论python3.x的爬虫实现方法。

爬虫架构

架构组成URL管理器：管理待爬取的url集合和已爬取的url集合，传送待爬取的url给网页下载器。

网页下载器（urllib）：爬取url对应的网页，存储成字符串，传送给网页解析器。
网页解析器（BeautifulSoup）：解析出有价值的数据，存储下来，同时补充url到URL管理器。

运行流程# URL管理器

基本功能

添加新的url到待爬取url集合中。
判断待添加的url是否在容器中（包括待爬取url集合和已爬取url集合）。
获取待爬取的url。
判断是否有待爬取的url。
将爬取完成的url从待爬取url集合移动到已爬取url集合。

存储方式

最低0.47元/天解锁文章

志者～不俗

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python爬虫基础

Python非常适合用来开发网页爬虫，理由如下：1、抓取网页本身的接口相比与其他静态编程语言，如java，c#，c++，python抓取网页文档的接口更简洁；相比其他动态脚本语言，如perl，shell，python的urllib包提供了较为完整的访问网页文档的API。（当然ruby也是很好的选择）此外，抓取网页有时候需要模拟浏览器的行为，很多网站对于生硬的爬虫抓取都是封杀的。这是我们需要模...
复制链接

扫一扫

志者～不俗

博客等级

码龄5年

8
原创

26
点赞

111
收藏

23
粉丝

关注

私信

热门文章

分类专栏

python学习 2篇

最新评论

请问自学Python有必要买课程吗？
让流年: 只要记得线上训练营什么的，都是为了赚你钱的就行，教给你的知识在网络上一搜一堆，真想报班去线下，虽说情况差不多，但是会提供一个好的学习环境，有人一起能学下去，并且面对面授课有疑问也好解决，别听那些销售的话，线上答疑就是扯淡——来自几千块钱的教训

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。