爬虫
weixin_37997371
这个作者很懒,什么都没留下…
展开
-
KeyError: 'Spider not found: xxxx'
这种错误的出现一般有两种情况: (1)爬虫的名称没写对,应该写class类里面name属性对应的名字,这种CSND上面有很多文章介绍,有具体图片。 (2)本文主要介绍第二种情况: 通过在命令行窗口,或者代码中,执行启动爬虫的代码导致此错误。 –>命令行窗口的当前路径不在scrapy工程目录中,需要先进入scrapy工程目录,不一定要工程根目录,下一级子目录也可以; –>代码中...原创 2018-09-04 15:20:51 · 6237 阅读 · 1 评论 -
selenium.common.exceptions.WebDriverException: Message: 'geckodriver' executable needs to be in PATH
在mac上面使用selenium,采用Firefox驱动,报上面的错误。原因是:Firefox需要geckodriver驱动。驱动下载地址 驱动文件mac上面的存放地址:/usr/local/bin原创 2018-09-06 10:30:16 · 441 阅读 · 0 评论 -
selenium 静默模式运行(mac)
Firefox:貌似比Chrome麻烦,这里推荐mac from selenium import webdriver def get_driver_result(url, xpath): option = webdriver.ChromeOptions() option.add_argument('headless') driver = webdriver.Chr...原创 2018-09-06 10:58:55 · 1123 阅读 · 0 评论 -
爬虫元素定位
1.通过定位方式查找到的是元素,不是text、herf、title等等属性 2.获取元素的常见定位的方式:ID,Class Name,Tag Nmae,Name,Link Text(partial),CSS_Selector,XPATH 3.XPATH简述 (1)/A/B/C:路径定位,C没特点,C有多个 (2)//A/B/C,跳跃定位,用于查找多个同地位的元素,且A有特点,A有多个 (...原创 2018-09-06 12:32:50 · 790 阅读 · 0 评论 -
scrapy通过Request返回的页面数据与浏览器查看到的页面数据不一致
1.URL的地址可以反映请求用户所在的区域,区域不同返回的数据也不同 例如:http://www.xxxx/en/xxx 和 http://www.xxxx/cn/xxx 就可以看出不同 2.请求用户的IP地址所在的区域,如果使用代理,则返回的数据也可能不同。 3.请求头的设置不同,例如:user-agent,accept-language不同也会导致返回的数据不同。 scrapy有自己...原创 2018-09-07 00:47:29 · 6285 阅读 · 0 评论