一、什么是带参数请求
豆瓣搜索“海边的卡夫卡”网址:https://www.douban.com/search?q=%E6%B5%B7%E8%BE%B9%E7%9A%84%E5%8D%A1%E5%A4%AB%E5%8D%A1,
知乎搜索“宇宙大爆炸”网址:https://www.zhihu.com/search?type=content&q=%E5%AE%87%E5%AE%99%E5%A4%A7%E7%88%86%E7%82%B8。
可以看到每个url都由两部分组成:前半部分形如:https://xx.xx.xxx/xxx/xxx,后半部分形如:xx=xx&xx=xxx&xxxxx=xx&……两部分使用?来连接。其中前半部分是基网址,告诉服务器想访问的地址,后半部分就是请求所附带的参数,它会告诉服务器,需要什么样的数据。参数的结构和字典很像,有键有值,键值用=连接;每组键值之间,使用&来连接。
二、查看数据的参数
打开周杰伦QQ音乐搜索链接:https://y.qq.com/portal/search.html#page=1&searchid=1&remoteplace=txt.yqq.top&t=song&w=%E5%91%A8%E6%9D%B0%E4%BC%A6,发现qq音乐不支持更多歌曲的翻阅功能,没有对应的网页源代码。
更多评论
精彩评论可以通过点击“加载更多”获得更多数据,最新评论则需要翻页来进行数据更新。
以爬取《七里香》用户的精彩评论为例:https://y.qq.com/n/yqq/song/004Z8Ihr0JIu5s.html。打开Network,选中All,点击刷新。首先看看数据是否在第0个请求里面,显然是没有的。再看看XHR: