requests-html 爬虫编写及通用爬虫模块搭建

本文介绍了基于requests-html的爬虫编写,包括爬虫模块的搭建,支持pyquery、xpath、JavaScript等多种解析模式,以及日志、错误日志的抓取。此外,还提供了从Redis获取起始链接、多种数据持久化方式等功能。文章附带了详细的中文文档链接和源码地址。
摘要由CSDN通过智能技术生成

requests升级版requests-html 爬虫编写及通用爬虫模块搭建


安装: pip install requests-html

中文文档:https://cncert.github.io/requests-html-doc-cn/#/

源码:https://github.com/Liangchengdeye/Requests_Html_Spider

搭建常用通用爬虫各组件

简介:

  • 1、 爬虫模块编写,支持pyquery、xpath、JavaScript、beautifulsoup、正则等多种解析模式,使用请查看上面中文文档;
  • 2、 支持抓取各类日志保存,抓取日志、错误日志等各类日志信息;
  • 3、 抓取起始链接可来自于Redis,只需提供Redis-key信息,不用额外编写;
  • 4、 抓取信息持久化支持CSV、JSON、MYSQL、REDIS、KAFAKA、MONGODB等几大类常用持久化工具;
  • 5、 该框架主要是几大模块的组合,至于爬虫逻辑的实现,根据个人需求。

文件树:

|-Requests_Html_Spider          |--目录文件
   |--BaseFile                               |--基础配置
       |---GetLocalFile.py                   |--读取本地文件,如URL
       |---GetProxyIp.py                      |--获取代理IP
       |---Logger.py                            |--配置logging日志
       |--- ReadConfig.py                    |--读取配置文件
       |--- UserAgent.py                      |--轮换请求头
   |--Common                                |--公共操作类
       |---CsvHelper.py                       |--操作CSV文件
       |---JsonHelper.py                      |--操作JSON文件
       |---KafkaHelper.py                    |--操作KAFKA文件
       |---MongoHelper.py                  |--操作MONGODB文件
       |---MysqlHelper.py                    |--操作MYSQL文件
       |---RedisHelper.py                    |--操作REDIS文件
    |--Config                                   |--配置信息
       |---HEADERS.py                        |--配置请求头
       |---KAFKA                                  |--KAFKA配置
       |---MONGODB                           |--MONGODB配置
       |---MYSQL                                 |--MYSQL配置
       |---PROXYIP                              |--代理IP配置
       |---REDIS                                  |--REDIS配置
    |--Data                                      |--文件存储目录
    |--Logs                                      |--Logs日志存储目录
    |--Spider                                    |--爬虫类
       |---request_html_demo_1.py   |--简书python爬虫教程抓取
       |---request_html_demo_2.py   |--爬取博客园新闻
       |---request_html_demo_3.py   |--爬取电脑高清壁纸库

说明:  本框架主要是爬虫基本常用模块组合,避免了日常爬虫编写中各类组件重新编写过程,同时结合requests—html使得编写更为简便,其中requests-html是requests的原作者专门针对爬虫编写的一个新模块,并在不断的跟新状态,官方-github

Only Python 3.6 is supported.

源码:https://github.com/Liangchengdeye/Requests_Html_Spider

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值