动态加载数据获取
爬虫的需求有一部分需求是要获取所有的城市,但是城市是动态加载的,浏览器xpath得到数据和pycharm得到数据不一样。
背景:需要获取到瓜某二手车全国的城市列表
pycharm中只能得到十条,但是实际结果应该为252条
网页端显示的正确有252条
方法:(曲线救国)
1. F12 在网络里找到js请求
放大点看
copy其中的内容
得到一个长json串:
截取到all之后的部分:
就得到(unicode 需要转码,直接可以用python的print一下)
到此我们需要用将json转化为 csv
主要思想就是:
json,其实是一个大的字典,A对应的以A为首的城市拼音,A的值又是一个list装的是若干城市,每个list是一个城市的信息,类型是一个字典形式。
所以,将每个list拿出来,放到一个大的字典中。然后转化为dataframe格式,再保存下来。
参考这里 : https://blog.csdn.net/qq_35356840/article/details/100162614
这样就解决了,再保存到本地csv文件就可以了。