Python 通用爬虫思路

最新推荐文章于 2021-08-31 17:30:00 发布

Felix-微信(Felixzfb)

最新推荐文章于 2021-08-31 17:30:00 发布

阅读量466

点赞数 1

分类专栏：网络爬虫

本文链接：https://blog.csdn.net/u011318077/article/details/106386173

版权

本文介绍了Python通用爬虫的四个主要步骤：1) 准备URL，包括处理不明显的URL规律和明确页码总数的情况；2) 发送请求并处理响应，如添加User-Agent、IP代理和cookie；3) 数据提取，定位数据位置并提取列表页和详情页数据；4) 保存数据，可以选择txt、json、csv格式或保存到数据库。

摘要由CSDN通过智能技术生成

通用爬虫思路

1. 准备URL

准备start_url
- url地址规律不明显，总数不确定
- 通过代码查找下一页url
  - xpath定位
  - 不明显，寻找url地址，部分参数可能放在当前的响应中（比如当前页码数和总页码数会在当前响应中）
准备url_list
- 页码总数明确
- url地址规律明显

2. 发送请求，获取响应

添加随机的User-Agent，反反爬虫
添加随机代理的IP，建立ip代理池，反反爬虫
在对方判断我们是爬虫后，应该添加更多的headers字段，包括cookie
- cookie的处理可以使用session模块解决
- 准备一堆可以使用的cookie，组成cookie池
  - 如果不登录
    - 准备刚开始可以成功请求网址的cookie，即接收对方网址设置在response中的cookie
    - 下一次请求的时候，使用之前的cookie来请求
  - 如果要登录
    - 准备多个账号
    - 使用程序获取每个账号的cookie
    - 之后请求登录之后才能访问的网址随机使用已有的cookie

3. 提取数据

确定数据的位置
- 如果数据在当前的url地址响应中

最低0.47元/天解锁文章

Felix-微信(Felixzfb)

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Python 通用爬虫思路

文章目录通用爬虫思路1. 准备URL2. 发送请求，获取响应3. 提取数据4. 保存通用爬虫思路1. 准备URL准备start_urlurl地址规律不明显，总数不确定通过代码查找下一页urlxpath定位不明显，寻找url地址，部分参数可能放在当前的响应中（比如当前页码数和总页码数会在当前响应中）准备url_list页码总数明确url地址规律明显2. 发送请求，获取响应添加随机的User-Agent，反反爬虫添加随机代理的IP，建立ip代理池，反反爬虫在对
复制链接

扫一扫

专栏目录