Python_spider
S1ls
python 工程师
展开
-
python爬虫中带上Cookie,Referer,User-Agent的作用
Cookie:在我们每次访问对方服务器的时候,服务器都会为在我们本地设置cookie,为什么要设置cookie呢?因为对方的服务器要了解我们的身份。在我们下一次访问该服务器的时候,都会带上这个cookie,表明我们的身份。(例如我们在登陆某个网站的时候,在一段时候内在次进行访问,不需要再次登录)Referer:这个请求参数的作用主要是标识着请求是从哪个页面过来的。例如:在登陆某个网站的时候,登陆...原创 2019-01-12 13:16:25 · 5307 阅读 · 0 评论 -
在使用Selenium抓去网页的时候,使网页的滑动条滚动&&解决Selenium抓去数据不完整问题
在这里插入代码片在我们使用爬虫爬取数据的时候,Selenium是一个很好的工具。Selenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,Selenium 可以直接运行在浏览器上,它支持所有主流的浏览器(包括PhantomJS这些无界面的浏览器),可以接收指令,让浏览器自动加载页面,获取需要的数据,甚至页面截屏。在我们抓取数据的时候,可能会经常发现这样的情况:页面上明明有60...原创 2019-01-12 18:34:31 · 2582 阅读 · 0 评论 -
selenium无界面浏览器模式
现在最新版本的webdriver,不在有专门的无头模式。而是在有界面的模式中修改代码,就ok,以斗鱼为例:from selenium import webdriverfrom selenium.webdriver.chrome.options import Optionsclass DouYu(object): def __init__(self): self.st...原创 2019-01-14 10:17:23 · 2959 阅读 · 2 评论 -
使用selenium无法获取到标签的文本内容的解决方法
在我们使用selenium进行抓取网页的时候,可能有的时候会抓取不到内容。selenium 获取不了标签文本的解决方法 ------ 即driver.find_element_by_xxx().text() 为空的解决办法<a href="http://www.baidu.com">ba百度</a> 例如:我们在用driver.find_element_by_xxx...原创 2019-01-14 12:48:56 · 6727 阅读 · 0 评论 -
python3调用js的库,执行js代码
感谢该博主的博文,让我解决爬虫解密问题https://blog.csdn.net/xudailong_blog/article/details/81271302翻译 2019-01-16 14:12:13 · 2216 阅读 · 0 评论 -
python requests模块使用 进行重试(retrying模块)
requests 重试话不多说,贴代码import requestsfrom retrying import retryheaders = {}@retry(stop_max_attempt_number=3) # 最大重试3次,3次全部报错,才会报错def _parse_url(url): print(url) response = requests.get(...转载 2019-07-12 15:23:45 · 2010 阅读 · 0 评论