Python爬虫技术性总结（2）

最新推荐文章于 2024-06-20 07:25:25 发布

燕山588

最新推荐文章于 2024-06-20 07:25:25 发布

阅读量234

点赞数

分类专栏：程序员 python 编程文章标签： python 分布式数据库 java 编程语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/kj7762/article/details/118677321

版权

本文总结了Python爬虫的关键技术，包括urllib2和requests库的使用，headers和cookies的设置，以及正则表达式、BeautifulSoup和XPath的数据提取方法。还介绍了selenium的运用以及分布式爬虫的实现，如Scrapy框架、rabbitMQ和scrapy-redis。最后提到了OCR识别和代理IP在应对反爬策略中的角色。

摘要由CSDN通过智能技术生成

爬虫理论，怎么样抓包，同步异步分析要抓取的数据，我们的爬虫都是定向爬虫
urllib2结合urllib作为入门了解内容，了解urllib2抓取数据的使用
requests重点，重点，重点，重复3遍，必须掌握requests的使用

headers:为了伪装浏览器，破解对方网站的反爬措施，针对直接拿不到数据的网站，首先考虑使用headers。

cookies:主要使用在破解登录算法，登录算法破解完成后，拿到cookies，然后根据拿到的cookies去访问个人主页等，需要登录后看到的数据。cookies是服务器写入浏览器本地的数据

params：拼接url的“？”后面的数据，每个 “&”都代表一个字典的键值

data：用于post方式传送数据时使用

timeout：类似于打开浏览器访问第三方网站的时间，限定时间内访问。

proxies：如果第三方网站启用了反爬措施，例如：出现验证码，此时我们可以使用代理IP，访问

提取数据重点，重点，重复3遍，只爬取不提取数据是没有意义的

正则表达式：提供最简单的 (.?) 的使用，要和不要的数据都是用(.?)提取

bs4：需要将文档转换成BeatfulSoup对象，需要lxml解析器进行解析

xpath：lxml解析器解析，父节点，子节点的方式进行查找

<

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。