init
问题描述
Ajax异步加载。拉勾搜索页面的source page 不像 糗事百科的 source page,没有要抓取的那些信息(如“GO开发工程师 1天前发布 10k-20k 经验1-3年 / 大专”),这些信息是Ajax异步加载的;对于异步加载的搜索结果页,无法像糗事百科那样直接从source page中匹配想要的结果。
模仿浏览器发送post请求。Ajax异步请求的网址,利用postman发送post请求,总是返回系统繁忙。
解决办法
问题1:google 浏览器按F12,按一下一个空心圆带斜杠的按钮(“clear”),先将页面的结果清楚,然后刷新页面,然后查看加载出来的那些网址的Header,在General中Request Method为POST的,差不多就是Ajax请求数据的真正地址。找到这个地址后,看“Preview”,就能查看response的格式。
问题2:
端正态度。其实找到Ajax请求的真正地址后,用postman就应该能模拟出这个Ajax请求,我之所以失败,是因为我太懒了,只填了几个Request Headers。后来我把那些Request Headers中的项全添加到Postman中,就加载出来了。然后这个事情启发了我,只要把Request Headers/Query String Parameters/Form Data 全部实现,无论使用什么,都应该返回正确的结果才对。
FormData 要注意一下数据格式,一般来说Ajax默认请求的格式,是“application/x-www-form-urlencoded”。由此我产生了一个疑问,post都有几种数据格式?