在批量抓取网页内容时,我经常采用的做法是:1、得到目标内容在网页中的位置,即xpath路径;2、批量下载网页,然后利用xpath,取出每个网页中所需要的内容。
在这里,我们利用python模块lxml。
以谷歌翻译为例,我要批量抓取翻译内容,那么首先我要知道译文的xpath,代码如下:
在批量抓取网页内容时,我经常采用的做法是:1、得到目标内容在网页中的位置,即xpath路径;2、批量下载网页,然后利用xpath,取出每个网页中所需要的内容。
在这里,我们利用python模块lxml。
以谷歌翻译为例,我要批量抓取翻译内容,那么首先我要知道译文的xpath,代码如下: