web爬虫讲解—Scrapy框架爬虫—Scrapy爬取百度新闻，爬取Ajax动态生成的信息

最新推荐文章于 2024-06-08 23:00:56 发布

程序员老K

最新推荐文章于 2024-06-08 23:00:56 发布

阅读量613

点赞数

文章标签： web爬虫数据挖掘编程语言爬虫 Python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/KK12345677/article/details/99442783

版权

本文介绍了如何使用Scrapy框架抓取百度新闻中由Ajax动态生成的内容。通过分析网页源码和抓包，发现信息是通过不同参数的Ajax请求返回的JSON或HTML数据。通过调整参数，可以将HTML网址转换为JSON网址，从而获取所有新闻URL。最后，文章提到了在Scrapy中实现这一过程。

摘要由CSDN通过智能技术生成

crapy爬取百度新闻，爬取Ajax动态生成的信息，抓取百度新闻首页的新闻rul地址

有多网站，当你浏览器访问时看到的信息，在html源文件里却找不到，由得信息还是滚动条滚动到对应的位置后才显示信息，那么这种一般都是 js 的 Ajax 动态请求生成的信息

我们以百度新闻为列：

1、分析网站

首先我们浏览器打开百度新闻，在网页中间部分找一条新闻信息

然后查看源码，看看在源码里是否有这条新闻，可以看到源文件里没有这条信息，这种情况爬虫是无法爬取到信息的

那么我们就需要抓包分析了，启动抓包软件和抓包浏览器，前后有说过软件了，就不在说了，此时我们经过抓包看到这条信息是通过Ajax动态生成的JSON数据，也就是说，当html页面加载完成后才生成的，所有我们在源文件里无法找到，当然爬虫也找不到

我们首先将这个JSON数据网址拿出来，到浏览器看看，我们需要的数据是不是全部在里面，此时我们看到这次请求里只有 17条信息，显然我们需要的信息不是完全在里面，还得继续看看其他js包

最低0.47元/天解锁文章

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
web爬虫讲解—Scrapy框架爬虫—Scrapy爬取百度新闻，爬取Ajax动态生成的信息

crapy爬取百度新闻，爬取Ajax动态生成的信息，抓取百度新闻首页的新闻rul地址有多网站，当你浏览器访问时看到的信息，在html源文件里却找不到，由得信息还是滚动条滚动到对应的位置后才显示信息，那么这种一般都是 js 的 Ajax 动态请求生成的信息我们以百度新闻为列：1、分析网站首先我们浏览器打开百度新闻，在网页中间部分找一条新闻信息然后查看源码，看看在源码里是否有这条新闻，可以...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。