爬虫
qq_42621977
这个作者很懒,什么都没留下…
展开
-
python爬取豆瓣电影名称、评分
最近在学习爬虫,爬取豆瓣电影Top250电影名称、评分。不是很困难,大佬直接忽略吧。直接上代码了。import requestsfrom bs4 import BeautifulSoupfor i in range (0,10): url = "https://movie.douban.com/top250?start="+(str(i*25)) #获取网页 r...原创 2019-05-08 20:36:22 · 8514 阅读 · 0 评论 -
AttributeError: 'list' object has no attribute 'send_keys',python+selenium 实现QQ空间网页的自动登陆。
静态网页,在浏览器中展示的内容都在HTML源代码中。但是,主流网站都是用JavaScript展现网页内容,和静态网页不同的是,在使用JavaScript时,很多内容并不会出现在HTML源代码中,所以爬取静态网页的技术无法使用。因此我们需要用到动态网页爬取的两种技术:通过浏览器审查元素解析真实网页地址和使用selenium模拟浏览器的方法。这次用了selenium模拟浏览器方法。from se...原创 2019-05-19 22:37:29 · 4411 阅读 · 0 评论 -
Invalid return character or leading space in header: User-Agent 错误
不是第一次使用请求头了,这个错误确实第一次遇见。 raise InvalidHeader("Invalid return character or leading space in header: %s" % name)requests.exceptions.InvalidHeader: Invalid return character or leading space in heade...原创 2019-05-10 10:30:32 · 9186 阅读 · 3 评论 -
Selenium、geckodriver、Firefox之间的版本问题 :Message: 'geckodriver' executable needs to be in PATH.
在使用python的Selenium库模拟浏览器完成抓取遇到的问题。最先开始我使用的版本:selenium:3.141Firefox:66(这个我记不太清楚了。查看Firefox版本,打开Firefox->Alt->帮助->关于Firefox)geckodriver:v0.24.0(下载地址:https://github.com/mozilla/geckodriver/r...原创 2019-05-11 18:34:09 · 209 阅读 · 0 评论 -
selenium中Firefox禁用css image javascript
提高selenium爬取速度#禁用图片fp = webdriver.FirefoxProfile()fp.set_preference('permissions.default.image', 2)#某些firefox只需要这个fp.set_preference('browser.migration.version', 9001)#部分需要加上这个#禁用cssfp = webdrive...原创 2019-05-13 16:33:33 · 1201 阅读 · 4 评论