在爬虫中,所谓的异步加载。指的是网页吧真实数据隐藏,我们看到的数据是被渲染过的页面。我们通过普通的方法对页面进行爬虫,是永远爬不到真实数据的。
所谓真实的数据,是正确的链接下内的数据内容。我们对有异步加载的页面进行爬虫时:
第一步,最关键就是要找到网页的链接,这个链接通常是正常的URL+一些参数,我们在进行寻找的就是这些参数是什么?值怎么获取? 这个时候我们需要按F12,点击network,按F5刷新一下。找到xhr 类型的数据,那些参数的内容一般都是藏在这些文件夹中。进去之后点击priview。里面很多参数就是我们需要寻找的。
第二步,在构造正确的url之后就需要对数据解析了。我们通过我们构造的url可以获取到数据是json格式的,这个时候需要我们对里面内容进行提取。我们先输出一页的内容,从中找到要获取的内容,因为json 格式是(key,value)形式,我们找到所要值得key,那直接通过json.get(key),就可以获取里面的值了。要是key里面又有(key,value)结构,我们可以用json.get(key).get(key)来获取想要的值。
第三步,直接对获取的值进行保存就行,一般数据为dict格式,保存入数据库的话mongo比较好一点