摘要:
在使用selenium和firefox抓取网页指定firefox_profile后遇到问题,生成的日志文件太大直接导致C盘资源耗尽,火狐浏览器直接就停止工作了。
一、环境
windows2008 server(尴尬,C盘空间还剧小)
python 3.4
selenium + firefox
二、代码情况
利用selenium 调用Firefox内核爬取网站
sFirefoxProfile ='C:\\Users\\username\\AppData\\Roaming\\Mozilla\\Firefox\\Profiles\\2alxrl56.default' # firefox 配置文件路径
fProfile= FirefoxProfile(sFirefoxProfile) # Firefox配置文件,如果不设置这个也可能会被认为是爬虫
driver = webdriver.Firefox(fProfile)
抓取一段时间之后发现爬虫不再抓取网页,火狐停止工作,发现是C盘用户路径下面生成了大量的临时文件,其中日志文件特别大。
C:\Users\username\AppData\Local\Temp\3\tmpuuvium\webdriver-py-profilecopy
爬虫每次启动之后都会从指定的Firefox配置文件路径复制到临时目录中,并且开始生成日志文件。
一开始我希望能够不让爬虫启动的时候都重新生成临时目录,直接使用上次复制后得到的配置文件,但是经过检索并没有发现可行的办法。在检索过程中发现了seleniu