异步加载

在爬虫中,所谓的异步加载。指的是网页吧真实数据隐藏,我们看到的数据是被渲染过的页面。我们通过普通的方法对页面进行爬虫,是永远爬不到真实数据的。

所谓真实的数据,是正确的链接下内的数据内容。我们对有异步加载的页面进行爬虫时:

第一步,最关键就是要找到网页的链接,这个链接通常是正常的URL+一些参数,我们在进行寻找的就是这些参数是什么?值怎么获取?   这个时候我们需要按F12,点击network,按F5刷新一下。找到xhr 类型的数据,那些参数的内容一般都是藏在这些文件夹中。进去之后点击priview。里面很多参数就是我们需要寻找的。

 

第二步,在构造正确的url之后就需要对数据解析了。我们通过我们构造的url可以获取到数据是json格式的,这个时候需要我们对里面内容进行提取。我们先输出一页的内容,从中找到要获取的内容,因为json 格式是(key,value)形式,我们找到所要值得key,那直接通过json.get(key),就可以获取里面的值了。要是key里面又有(key,value)结构,我们可以用json.get(key).get(key)来获取想要的值。

第三步,直接对获取的值进行保存就行,一般数据为dict格式,保存入数据库的话mongo比较好一点

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值