bd爬虫总结

爬虫心得:
首先要有页面的真是路径,不然就算你的代码很强,那也爬不到任何东西。

URL1:关键词1

href="/s?ie=utf-8&cl=2&medium=0&rtt=1&bsst=1&rsv_dl=news_b_pn&tn=news&word=%E7%99%BE%E5%BA%A6&rsv_sug3=5&rsv_sug4=263&rsv_sug1=1&rsv_sug2=0&inputT=1419&rsv_sug=1&x_bfe_rqs=03E80&x_bfe_tjscore=0.002404&tngroupname=organic_news&pn=20"

URL2:关键词2

href="/s?ie=utf-8&cl=2&medium=0&rtt=4&bsst=1&rsv_dl=news_b_pn&tn=news&word=%E8%82%96%E4%BA%9A%E5%BA%86+%E5%9B%9B%E4%B8%AA%E6%9C%80%E4%B8%A5&x_bfe_rqs=03E80&x_bfe_tjscore=0.007253&tngroupname=organic_news&pn=20"

URL1可以爬到你在浏览器看到的内容,但是URL2你爬不到你在浏览器端看到的页面,所以分析这两个页面URL,可以看出两处差别:

差别1:
URL1:&rtt=1
URL2:&rtt=4
差别2:
URL1:&rsv_sug3=5&rsv_sug4=263&rsv_sug1=1&rsv_sug2=0&inputT=1419&rsv_sug=1&x_bfe_rqs=03E80
URL2:URL2没有这些参数

修改URL2:

href="/s?ie=utf-8&cl=2&medium=0&rtt=1&bsst=1&rsv_dl=news_b_pn&tn=news&word=%E8%82%96%E4%BA%9A%E5%BA%86+%E5%9B%9B%E4%B8%AA%E6%9C%80%E4%B8%A5&rsv_sug3=5&rsv_sug4=263&rsv_sug1=1&rsv_sug2=0&inputT=1419&rsv_sug=1&x_bfe_rqs=03E80&x_bfe_rqs=03E80&x_bfe_tjscore=0.007253&tngroupname=organic_news&pn=20"

修改之后的URL2加上前缀。。。可以爬到我们在浏览器看到的数据。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值