python爬虫：网址无法请求和某一特定链接求取方法

最新推荐文章于 2024-04-29 21:44:55 发布

Nlxfzx

最新推荐文章于 2024-04-29 21:44:55 发布

阅读量2.7k

点赞数 1

分类专栏： python爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Nlxfzx/article/details/76864690

版权

python爬虫专栏收录该内容

9 篇文章 0 订阅

订阅专栏

首先说一下，我开这个博客，写博客主要是为了记录自己平时学习研究过程中的重点问题，可能格式，表达什么的都会很乱。当然，如果我的问题对大家有所帮助那就更好了，因为我也是一个新人。

很多人在用python爬虫时可能会遇到网址无法请求，这是因为很多网页都是加密的，所以我们需要设定特定的headers。

res = requests.get("http://www.qichacha.com/search?key=%E6%B1%9F%E8%8B%8F%E4%B8%9C%E7%BD%91%E4%BF%A1%E6%81%AF%E7%
A7%91%E6%8A%80%E6%9C%89%E9%99%90%E5%85%AC%E5%8F%B8')" 当你get 这么一个网址的时候可能在print res时发现返回的是405，这就表明get请求不行，而有人可能会用别的post什么的请求，

但是我找到了设置headers的方法：headers={ 'User-Agent': 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US)
AppleWebKit/534.20 (KHTML, like Gecko) Chrome/11.0.672.2 Safari/534.20' })

加上这段代码会发现返回200正确。这个设定值好像是匹配浏览器的，基本都能用，如果不能用那你就重新找：

如上图，你想获取a href后面这一个链接怎么办？很多人可能用BeautifulSoup，正则什么的都可以获得，但是我找了很久还是没有找到很有效简明的方法，所以我还有我那个webdrivr，

代码如下：results = driver.find_element_by_xpath("//tr[2]//td/a[@class='ma_h1']").get_attribute('href')

#可以获取此路径下的一个链接（是点进去之后的网址的链接，所以是完整的和当前源代码中的有差别），
注意这里是element没有s其他对应链接修改路径均可获得。

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
python爬虫：网址无法请求和某一特定链接求取方法

首先说一下，我开这个博客，写博客主要是为了记录自己平时学习研究过程中的重点问题，可能格式，表达什么的都会很乱。当然，如果我的问题对大家有所帮助那就更好了，因为我也是一个新人。很多人在用python爬虫时可能会遇到网址无法请求，这是因为很多网页都是加密的，所以我们需要设定特定的headers。res = requests.get("http://www.qichacha.com/search
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。