Python网页抓取:获取页面中某段内容的xpath
<br /> 在批量抓取网页内容时,我经常采用的做法是:1、得到目标内容在网页中的位置,即xpath路径;2、批量下载网页,然后利用xpath,取出每个网页中所需要的内容。<br /> 在这里,我们利用python模块lxml。<br /> 以谷歌翻译为例,我要批量抓取翻译内容,那么首先我要知道译文的xpath,代码如下:<br /> import urllib,urllib2
import lxml
import lxml.html as HTML
import lx
原创
2011-05-09 17:29:00 ·
11818 阅读 ·
1 评论