ajax 更新模型数据_Scrapy爬虫框架之爬取ajax动态数据(三)

a3359ccaebac3461d338c3826f4524e5.png

简书业务分析

文章目录

  • 简书结构分析
  • 创建简书爬虫项目
  • 创建crawl解析器
  • 配置简书下载格式

简书结构分析

ee05c3dfde8b45c76ac611c3a57f0d7e.png

创建简书爬虫项目

73f73daff05caae8292c39fceedbc907.png

创建crawl解析器

之前创建的spider解析器采用都是basic模板,这次爬虫是要下载简书文章,需要支持正则表达式匹配,因此建议采用crawl模板来创建spider解析器

4c457bc0b5b352543cf5381b75ba4000.png

配置简书下载格式

e8d0bc6c3955795eefc38c94a0d3b245.png

获取简书文章数据

文章目录

简书URL地址分析

获取简书文章数据

根据业务需求创建模型

测试parse_item解析函数

简书URL地址分析

可以指定爬虫抓取的规则,支持正则表达式,目前简书

https://www.jianshu.com/p/df7cad4eb8d8

https://www.jianshu.com/p/07b0456cbadb?*****

https://www.jianshu.com/p/.*

7eeb0a4e4cfc73b49d80b9c1239f86a6.png

获取简书文章数据

d2ff03101482e705adbecb87ce37aa43.png

根据业务需求创建模型

c0170795c98235fef7521d3b155fd4f0.png

测试parse_item解析函数

7a3d03738d8ebde5a30ec357962c10de.png

获取ajax数据

文章目录

ChromeDriver介绍

重构下载器增加ajax功能

重写process_request方法

ChromeDriver介绍

chromeDriver 是 google 为网站开发人员提供的自动化测试接口,WebDriver是一个开源工具,用于在许多浏览器上自动测试webapps。它提供了导航到网页,用户输入,JavaScript执行等功能

ChromeDriver的安装一定要与Chrome的版本一致,不然就不起作用,查看chrom的版本则在浏览器地址栏输入:chrome://version/

chromedriver下载地址: http://chromedriver.storage.googleapis.com/index.html

重构下载器增加ajax功能

首先要在setting.py中开启下载器中间件:JianshuDownloaderMiddleware

77007ea49b412031600f64839cc9f1fb.png

重写process_request方法

4520013ae315b29bd6b8bfd28d838140.png
d413abccde5914f8bc252386d26c5230.png
e8c0e45f83de0ae97da7ff1d73855a78.png
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值