爬虫
lionhenryzxxy
这个作者很懒,什么都没留下…
展开
-
爬虫扒取网页信息时‘gbk‘ codec can‘t encode character ‘\u266a和\xa0的问题
今天跟着http://python.jobbole.com/89091/学习了一下爬虫扒取网易云音乐的歌单,但是发现个问题就是,用csv储存自己扒取的信息时,总会弹出'gbk' codec can't encode character ‘\xa0‘的错误,搜索得到这个网页https://blog.csdn.net/wangbowj123/article/details/780616...原创 2018-07-04 16:06:30 · 953 阅读 · 0 评论 -
Selenium support for PhantomJS has been deprecated, please use headless ,安装selenium和headless chrome
做一些爬虫的代码学学,发现网上教程是用selenium和phantomjs,确实能用,就是各种弹出题目中的错误,大红字看的闹心,一搜发现chrome和Firefox也有这种headless版本的了,于是乎赶快去下了一个chrome,还有对应版本的chromdriver,这里有chrome和driver的对应版本信息http://chromedriver.storage.google...原创 2018-07-04 16:34:40 · 1215 阅读 · 2 评论 -
selenium.common.exceptions.WebDriverException: Message: unable to set cookie
最近总算是把爬虫的东西都做完了,简单的功能实现,到最后感觉用selenium就是在模拟用户行为,点这点那,输入这个输入那个,最后碰到个问题,文件点击下载了,怎么能够获取到chrome下载文件的状态,知道他全都下载完了,然后用quit关闭退出呢?话归正题,代码如下addurl="********"chrome_options = Options()#获取chorme设置# chrome_opti...原创 2018-07-11 15:46:00 · 6814 阅读 · 0 评论 -
利用selenium和chrome做爬虫时,如何解决新弹出的标签页和对话框(警告框)
用selenium操作网页时,发现点击了一个按钮准备进入下一页,结果,突然弹出了一个新标签或者对话框,现有的driver都操作不了,怎么办呢?1.新的标签页出现新的标签页的时候,我尝试着拿webdriver,get了一下新的url地址,发现旧的标签页报错,新的标签页操作不了这时候就该用.switch_to.window([i]) 。(switch_to_window已经被抛弃了,在pycharm中...原创 2018-07-11 16:17:02 · 7711 阅读 · 0 评论