爬虫
djshichaoren
Don't show me your code, give me five C币
展开
-
爬虫下载淘宝html代码
爬虫下载淘宝html代码,urllib2还是request原创 2017-08-13 22:37:58 · 2156 阅读 · 0 评论 -
使用urllib.urlretrieve(img_net_path, img_local_path)爬取淘宝商品细节图片,[Errno socket error] [SSL: UNKNOWN_PROT
当使用这条语句爬取图片时:会出现协议错误urllib.urlretrieve(img_net_path, img_local_path)报错信息:Traceback (most recent call last): File "E:/py_project/auto_sale_spider/spider/spider_selenium/html_downloader_se原创 2017-09-22 09:28:01 · 1397 阅读 · 0 评论 -
使用selenium,网页长时间加载不完的情况
有一些网页的加载时间很长,新华网直接永远加载不完,但是需要爬取的信息已经加载出来了,如果这时候再等下去就是浪费时间。将可能出现长时间加载不完的地方try except,如果网页需要爬取得内容已经加载完毕,即使网页没有加载完成,except之后的driver也可以用from selenium.common.exceptions import TimeoutException为什么 fro原创 2018-01-15 11:59:51 · 19103 阅读 · 4 评论 -
selenium.common.exceptions.WebDriverException: Message: invalid session id
selenium.common.exceptions.WebDriverException: Message: invalid session id原因是在使用webdriver之前调用了driver.close()将webdriver关闭了,则webdriver就失效了。原创 2019-05-08 11:41:06 · 13560 阅读 · 2 评论 -
selenium.common.exceptions.WebDriverException: Message: unknown error: call function result missing
在使用selenium爬取淘宝页面,使用如下代码# 鼠标滚轮向下滑动driver.execute_script("window.scrollBy(0,2000)")报异常:Traceback (most recent call last): File "E:\py_project\taobao_spider\src\spider\tool\html_downloader.py...原创 2019-05-05 17:09:21 · 9482 阅读 · 1 评论 -
selenium webdriver webelement获取标签方法
1.等待浏览器加载完指定的标签from selenium.webdriver.support.wait import WebDriverWaitfrom selenium.webdriver.support import expected_conditions as ECfrom selenium.webdriver.common.by import Byspan_page_info...原创 2019-05-07 21:49:25 · 10131 阅读 · 0 评论