requests-html 爬虫编写及通用爬虫模块搭建

最新推荐文章于 2024-09-28 20:37:19 发布

凉城的夜

最新推荐文章于 2024-09-28 20:37:19 发布

阅读量983

点赞数

文章标签： python requests requests-html

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sinat_32651363/article/details/83587847

版权

本文介绍了基于requests-html的爬虫编写，包括爬虫模块的搭建，支持pyquery、xpath、JavaScript等多种解析模式，以及日志、错误日志的抓取。此外，还提供了从Redis获取起始链接、多种数据持久化方式等功能。文章附带了详细的中文文档链接和源码地址。

摘要由CSDN通过智能技术生成

requests升级版requests-html 爬虫编写及通用爬虫模块搭建

安装： pip install requests-html

中文文档：https://cncert.github.io/requests-html-doc-cn/#/

源码：https://github.com/Liangchengdeye/Requests_Html_Spider

搭建常用通用爬虫各组件

简介：

1、爬虫模块编写，支持pyquery、xpath、JavaScript、beautifulsoup、正则等多种解析模式，使用请查看上面中文文档；
2、支持抓取各类日志保存，抓取日志、错误日志等各类日志信息；
3、抓取起始链接可来自于Redis，只需提供Redis-key信息，不用额外编写；
4、抓取信息持久化支持CSV、JSON、MYSQL、REDIS、KAFAKA、MONGODB等几大类常用持久化工具；
5、该框架主要是几大模块的组合，至于爬虫逻辑的实现，根据个人需求。

文件树：

|-Requests_Html_Spider          |--目录文件
   |--BaseFile                               |--基础配置
       |---GetLocalFile.py                   |--读取本地文件，如URL
       |---GetProxyIp.py                      |--获取代理IP
       |---Logger.py                            |--配置logging日志
       |--- ReadConfig.py                    |--读取配置文件
       |--- UserAgent.py                      |--轮换请求头
   |--Common                                |--公共操作类
       |---CsvHelper.py                       |--操作CSV文件
       |---JsonHelper.py                      |--操作JSON文件
       |---KafkaHelper.py                    |--操作KAFKA文件
       |---MongoHelper.py                  |--操作MONGODB文件
       |---MysqlHelper.py                    |--操作MYSQL文件
       |---RedisHelper.py                    |--操作REDIS文件
    |--Config                                   |--配置信息
       |---HEADERS.py                        |--配置请求头
       |---KAFKA                                  |--KAFKA配置
       |---MONGODB                           |--MONGODB配置
       |---MYSQL                                 |--MYSQL配置
       |---PROXYIP                              |--代理IP配置
       |---REDIS                                  |--REDIS配置
    |--Data                                      |--文件存储目录
    |--Logs                                      |--Logs日志存储目录
    |--Spider                                    |--爬虫类
       |---request_html_demo_1.py   |--简书python爬虫教程抓取
       |---request_html_demo_2.py   |--爬取博客园新闻
       |---request_html_demo_3.py   |--爬取电脑高清壁纸库

说明：本框架主要是爬虫基本常用模块组合，避免了日常爬虫编写中各类组件重新编写过程，同时结合requests—html使得编写更为简便，其中requests-html是requests的原作者专门针对爬虫编写的一个新模块，并在不断的跟新状态，官方-github

Only Python 3.6 is supported.

源码：https://github.com/Liangchengdeye/Requests_Html_Spider

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。