python爬虫
ZIUPAN
这个作者很懒,什么都没留下…
展开
-
爬虫学习——selenium 对浏览器标签页进行关闭和切换的方法
python selenium 对浏览器标签页进行关闭和切换的方法 来源:http://www.10qianwan.com/articledetail/150803.html from selenium import webdriver browser=webdriver.Chrome() browser.get('http://news.baidu.com/') # 获取当前窗口句柄(窗口A) handle = browser.current_window_handle # 打开一个新的窗口 browse原创 2021-04-08 22:29:05 · 387 阅读 · 0 评论 -
爬虫学习——身份认证
如果在访问网站时遇到认证页面,可以使用requests自带的身份认证功能 柿栗如下: import requests from requests.auth import HTTPBasicAuth r=requests.get('http://localhost:5000',auth=HTTPBasicAuth('username','password')) print(r.status_code) 当然,如果参数都传一个HTTPBasicAuth类,有点麻烦,所以也可以直接传一个元组,它会默认使用HT原创 2021-04-04 13:37:15 · 668 阅读 · 0 评论 -
Python爬虫学习——超时设置
在本机网络不好还是网络响应太慢的情况下,为了防止等待太长时间,可以设置一个超时时间,即超过了这个时间还没有得到响应,那就报错。需要用到timeout参数。这个时间的计算是指发出请求到服务器返回响应的时间。 柿栗如下: import requests r = requests.get("https://www.taobao.com",timeout=1) print(r.status_code) 通过以上方式,我们可以将超时时间设置为1秒,如果1秒内没有响应,那就抛出异常。 实际上,请求分为两个阶段,即连接原创 2021-03-16 22:25:04 · 1713 阅读 · 0 评论 -
Python爬虫学习——代理设置
对于某些网站,一旦大规模爬取,对于大规模且频繁的请求,网站可能会弹出验证码,或者跳转到登录认证页面,更甚者可能会直接封禁客户端的IP,导致一段时间内无法访问。 为了防止这种情况发生,需要设置代理来解决,需要用到proxies参数。 设置方式如下: import requests proxies = { "http":"https://user:password@10.10.1.10:3128/", } requests.get("http://www.taobao.com",proxies=pro原创 2021-03-16 14:50:20 · 301 阅读 · 0 评论 -
爬虫学习——SSL证书验证
requests提供了证书验证的功能。当发送HTTP请求时,它会检查SSL证书,我们可以使用verify参数控制是否检查此证书。其实如果不加verify参数的话,默认是True,会自动验证。 如果访问未被认证的网页,我们在访问时,都可以看到一个证书问题的页面,用requests测试,print(xxx.status_code)的结果会提示一个SSLError错误,表示证书验证错误。 如何避免这样的错误:把verify参数设置成False即可 举个栗子: import requests response=re原创 2021-03-16 14:47:34 · 575 阅读 · 1 评论 -
python爬虫学习——会话维持
python爬虫学习——会话维持 在requests中,如果直接利用**get()或者post()**等方法的确可以做到模拟网页的请求,但这实际上是相当于不同会话。 如何维持同一个会话?用Session对象! s=requests.Session() s.get('http://httpbin.org/cookies/set/number/123456789') r=s.get('http://httpbin.org/cookies') print(r.text) ...原创 2020-09-17 14:56:30 · 326 阅读 · 0 评论