python爬虫:网址无法请求和某一特定链接求取方法

首先说一下,我开这个博客,写博客主要是为了记录自己平时学习研究过程中的重点问题,可能格式,表达什么的都会很乱。当然,如果我的问题对大家有所帮助那就更好了,因为我也是一个新人。

很多人在用python爬虫时可能会遇到网址无法请求,这是因为很多网页都是加密的,所以我们需要设定特定的headers。

res = requests.get("http://www.qichacha.com/search?key=%E6%B1%9F%E8%8B%8F%E4%B8%9C%E7%BD%91%E4%BF%A1%E6%81%AF%E7%
A7%91%E6%8A%80%E6%9C%89%E9%99%90%E5%85%AC%E5%8F%B8')"      当你get 这么一个网址的时候可能在print  res时发现返回的是405,这就表明get请求不行,而有人可能会用别的post什么的请求,

但是我找到了设置headers的方法:headers={ 'User-Agent': 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) 
AppleWebKit/534.20 (KHTML, like Gecko) Chrome/11.0.672.2 Safari/534.20' })         

加上这段代码会发现返回200正确。       这个设定值好像是匹配浏览器的,基本都能用,如果不能用那你就重新找:

如上图,你想获取a href后面这一个链接怎么办?很多人可能用BeautifulSoup,正则什么的都可以获得,但是我找了很久还是没有找到很有效简明的方法,所以我还有我那个webdrivr,

代码如下:results = driver.find_element_by_xpath("//tr[2]//td/a[@class='ma_h1']").get_attribute('href')

#可以获取此路径下的一个链接(是点进去之后的网址的链接,所以是完整的和当前源代码中的有差别),
注意这里是element没有s其他对应链接修改路径均可获得。




  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值