网页处理
yuboona
矢志不渝,为梦想而生活
展开
-
网页处理实践(1)
网页处理——BeautifulSoup处理网页入门实践1、去除HTML文档中的注释 在处理html的过程中我们发现,注释也会被作为一个子节点,但是这不是我们需要的from bs4 import BeautifulSoup, Commentsoup = BeautifulSoup(html,"lxml")comments = soup.findAll(text=lambda text:isins原创 2017-04-06 20:19:12 · 333 阅读 · 0 评论 -
网页处理实践(2)——Uubntu上python+Selenium+Firefox
1、安装selenium1、apt-get install selenium或者2、pip install selenium2、安装Firefoxapt-get install Firefox3、安装Firefox的官方 geckodrivergeckodriver下载地址,需要翻墙 下载地址、不需翻墙将下载好的文件放入 /usr/bin/ 下。在Python下运行以下代码from sel原创 2017-04-10 10:08:10 · 471 阅读 · 0 评论 -
网页处理实践(3)——python+selenium+firefox,不弹出窗口,静默模式运行
selenium+firefox,不弹出窗口,静默模式运行在使用selenium驱动有前端显示的浏览器(如firefox,chrome等)我们会经常遇到浏览器不停弹出的情况十分烦人,有没有方法解决,答案是有:通过使用pyvirtualdisplay,创建虚拟屏幕,将浏览器运行在这个虚拟的屏幕之中1、首先下载依赖包,我是在python中使用的$ sudo apt-get install xvfb py原创 2017-04-10 15:49:07 · 11159 阅读 · 4 评论 -
网页处理实践(4)——对selenium做异常处理
对selenium做异常处理在使用selenium的过程中我们经常遇到对网页操作的报错,常常程序会停留在这一步,没有办法继续下去,这时候我们就需要对程序做一个异常处理处理的最终目标是达到,程序在遇到错误的时候,能够继续运行下去,但是同时也会在log日志文件中进行记录。处理方法如下:对于save函数,其内部有使用selenium进行网页内容获取的部分# python代码def save(baseUr原创 2017-04-23 14:59:05 · 3662 阅读 · 0 评论