python爬虫简介

最新推荐文章于 2024-11-10 08:15:38 发布

Neo_21

最新推荐文章于 2024-11-10 08:15:38 发布

阅读量914

点赞数 1

分类专栏： # python爬虫文章标签： python 爬虫开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Neo_21/article/details/130049453

版权

python爬虫专栏收录该内容

6 篇文章 0 订阅

订阅专栏

关于爬虫使用

使用python编写的爬虫脚本（程序）可以完成定时定量，指定目标（Web站点）的数据爬取，主要使用多（单）线程/进程，网络请求库，数据解析，数据存储，任务调度等相关技术。

可以完成接口测试，功能性测试，性能测试和集成测试。

爬虫与web后端服务之间的关系

爬虫使用网络请求库，相当于客户端请求，Web后端服务根据请求响应数据。

https://www.cnblogs.com/lauhp/p/8979393.html

爬虫向Web服务器发起HTTP请求，正确的接受响应数据，然后根据数据类型content-type进行数据解析及存储。

爬虫在发起请求之前，需要伪造浏览器User-Agent指定请求头，然后在向服务器发起请求。

网络请求

常见网络请求库：

urllib/urllib3,
requests,
selenium(UI自动测试，动态js渲染）
appium(手机App的爬虫或UI测试）

数据解析：

re正则
xpath
bs4
json

序列化：把对象转换成字符串或者字节

反序列化：字符串或者字节转换成对象（字典，数组等）

序列化就是为了方便网络间的信息传输，字节码。

数据存储：

pymysql
mongodb

多任务库：

多线程（threading）,线程队列queue
协程（asynio, gevent / eventlet）

爬虫框架：

scrapy
scrapy-redis(分布式）多机器爬虫

反爬虫策略：

UA策略（user-agent）
登录限制（cookie）
请求频次（IP代理）
验证码（图片-云打码,滑块，文字或图片的选择）
动态js(Selenium/Splash/api接口)策略

scrapy

request和beautifulsoup都是库，scrapy是框架
scrapy框架中可以加入request和beautifulsoup
scrapy基于twisted,性能是最大的优势
scrapy内置的css和xpath selector非常方便，beautifulsoup（纯python写的）最大的缺点就是慢。

爬虫去重策略：

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。