爬虫心得:
首先要有页面的真是路径,不然就算你的代码很强,那也爬不到任何东西。
URL1:关键词1
href="/s?ie=utf-8&cl=2&medium=0&rtt=1&bsst=1&rsv_dl=news_b_pn&tn=news&word=%E7%99%BE%E5%BA%A6&rsv_sug3=5&rsv_sug4=263&rsv_sug1=1&rsv_sug2=0&inputT=1419&rsv_sug=1&x_bfe_rqs=03E80&x_bfe_tjscore=0.002404&tngroupname=organic_news&pn=20"
URL2:关键词2
href="/s?ie=utf-8&cl=2&medium=0&rtt=4&bsst=1&rsv_dl=news_b_pn&tn=news&word=%E8%82%96%E4%BA%9A%E5%BA%86+%E5%9B%9B%E4%B8%AA%E6%9C%80%E4%B8%A5&x_bfe_rqs=03E80&x_bfe_tjscore=0.007253&tngroupname=organic_news&pn=20"
URL1可以爬到你在浏览器看到的内容,但是URL2你爬不到你在浏览器端看到的页面,所以分析这两个页面URL,可以看出两处差别:
差别1:
URL1:&rtt=1
URL2:&rtt=4
差别2:
URL1:&rsv_sug3=5&rsv_sug4=263&rsv_sug1=1&rsv_sug2=0&inputT=1419&rsv_sug=1&x_bfe_rqs=03E80
URL2:URL2没有这些参数
修改URL2:
href="/s?ie=utf-8&cl=2&medium=0&rtt=1&bsst=1&rsv_dl=news_b_pn&tn=news&word=%E8%82%96%E4%BA%9A%E5%BA%86+%E5%9B%9B%E4%B8%AA%E6%9C%80%E4%B8%A5&rsv_sug3=5&rsv_sug4=263&rsv_sug1=1&rsv_sug2=0&inputT=1419&rsv_sug=1&x_bfe_rqs=03E80&x_bfe_rqs=03E80&x_bfe_tjscore=0.007253&tngroupname=organic_news&pn=20"
修改之后的URL2加上前缀。。。可以爬到我们在浏览器看到的数据。