**
抓取?callback=jQuery…形式的url
最近爬取 遇到好些 这种 为 jsonp 动态加载方式 的 网站, 做个笔记记录下
两种采集方式
1 模拟浏览器 selenium + webdriver 采集 模拟人为滚动
优点: 无需分析请求参数 节省配置时间
缺点: 获取数据较慢, 浏览器一直往下滚 占用较大内存 易崩
2 java || python get请求
优点: 获取速度快
缺点: 分析参数 占用较多时间, 访问较快 被封概率较大
分析结果如下:
get 请求http://xxx.xxxx.xxx/?callback=jQuery11130014313909482240961_1561597612526&lastpagetime=1559829276&_=1561602219158
参数为
1.1, callback:jQuery11130014313909482240961_1561597612526 jQuery 后面的一串数据 也可以自行定义(回调函数名,参数的值往往是随机生成) 来自【https://blog.csdn.net/h330531987/article/details/78546677】
1.2, lastpagetime:1559829276 为 上一次请求 最后一条数据的 add_time
1.3, _:1561602219158 请求时 时间戳 可以 自行定义
若有疑问 请指正 谢谢!