bd爬虫总结

最新推荐文章于 2021-02-22 21:15:02 发布

binbincoder

最新推荐文章于 2021-02-22 21:15:02 发布

阅读量652

点赞数 1

分类专栏： Python

本文链接：https://blog.csdn.net/qq_33286695/article/details/94566370

版权

Python 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

爬虫心得：
首先要有页面的真是路径，不然就算你的代码很强，那也爬不到任何东西。

URL1：关键词1

href="/s?ie=utf-8&cl=2&medium=0&rtt=1&bsst=1&rsv_dl=news_b_pn&tn=news&word=%E7%99%BE%E5%BA%A6&rsv_sug3=5&rsv_sug4=263&rsv_sug1=1&rsv_sug2=0&inputT=1419&rsv_sug=1&x_bfe_rqs=03E80&x_bfe_tjscore=0.002404&tngroupname=organic_news&pn=20"

URL2：关键词2

href="/s?ie=utf-8&cl=2&medium=0&rtt=4&bsst=1&rsv_dl=news_b_pn&tn=news&word=%E8%82%96%E4%BA%9A%E5%BA%86+%E5%9B%9B%E4%B8%AA%E6%9C%80%E4%B8%A5&x_bfe_rqs=03E80&x_bfe_tjscore=0.007253&tngroupname=organic_news&pn=20"

URL1可以爬到你在浏览器看到的内容，但是URL2你爬不到你在浏览器端看到的页面，所以分析这两个页面URL，可以看出两处差别：

差别1：
URL1：&rtt=1
URL2：&rtt=4
差别2：
URL1：&rsv_sug3=5&rsv_sug4=263&rsv_sug1=1&rsv_sug2=0&inputT=1419&rsv_sug=1&x_bfe_rqs=03E80
URL2：URL2没有这些参数

修改URL2：

href="/s?ie=utf-8&cl=2&medium=0&rtt=1&bsst=1&rsv_dl=news_b_pn&tn=news&word=%E8%82%96%E4%BA%9A%E5%BA%86+%E5%9B%9B%E4%B8%AA%E6%9C%80%E4%B8%A5&rsv_sug3=5&rsv_sug4=263&rsv_sug1=1&rsv_sug2=0&inputT=1419&rsv_sug=1&x_bfe_rqs=03E80&x_bfe_rqs=03E80&x_bfe_tjscore=0.007253&tngroupname=organic_news&pn=20"

修改之后的URL2加上前缀。。。可以爬到我们在浏览器看到的数据。

binbincoder

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
bd爬虫总结

爬虫心得：首先要有页面的真是路径，不然就算你的代码很强，那也爬不到任何东西。URL1：关键词1href="/s?ie=utf-8&cl=2&medium=0&rtt=1&bsst=1&rsv_dl=news_b_pn&tn=news&word=%E7%99%BE%E5%BA%A6&rsv_sug3=5&rsv_sug4=...
复制链接

扫一扫