scrapy爬取动态网页_爬虫毕设(三):爬取动态网页

动态网页分析

按照上一篇的分析,直接使用XPath找到该标签,然后通过parse提取出数据,在写入到item中就完事了。但是,当信心满满的写完代码后却发现,控制台输入了一个简简单单的[]

6a6339c5d17ee95205d06ec4ea7924f0.png

小问号你是否有很多朋友。

3f6219f9eff1bfc2563672a0cd2c94b9.png

一顿操作猛如虎,一看输出数据无。那么这到底是怎么回事呢?我们从头开始分析。

打开NetWork,找到tv/,点开Preview,结果发现只有一个框架,内容却是空白的。

bc8059739ad26ac843524be1a03270d8.png

这是由于网页执行js代码,通过Ajax请求数据来重新渲染页面的。所以我们需要找到有数据的那一个请求,然后再对该请求的目标url爬取。

5ba554cc6c9d0f45325ef333fb00135d.png

可以在preview中看到这就是我们想要的数据。我们再找到该请求的header,找到Request URL。

5ba554cc6c9d0f45325ef333fb00135d.png

我们直接复制链接到地址栏中,看到我们想要的数据,这熟悉的格式,不就是json吗。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值