Python网页抓取：获取页面中某段内容的xpath

最新推荐文章于 2024-05-14 22:18:18 发布

kerwin_liu

最新推荐文章于 2024-05-14 22:18:18 发布

阅读量1.1w

点赞数 2

分类专栏： Python 文章标签： python import url header windows .net

本文链接：https://blog.csdn.net/kerwin_liu/article/details/6407094

版权

本文介绍如何使用Python的lxml模块来抓取网页内容，特别是通过XPath定位谷歌翻译的译文。首先获取XPath路径，然后批量下载网页，通过XPath提取所需信息。示例代码展示了从谷歌翻译API获取译文的XPath并提取内容。

摘要由CSDN通过智能技术生成

在批量抓取网页内容时，我经常采用的做法是：1、得到目标内容在网页中的位置，即xpath路径；2、批量下载网页，然后利用xpath，取出每个网页中所需要的内容。

在这里，我们利用python模块lxml。

以谷歌翻译为例，我要批量抓取翻译内容，那么首先我要知道译文的xpath，代码如下：

import urllib,urllib2 import lxml import lxml.html as HTML import lxml.etree as etree #设置url参数 lin = 'en' lout = 'zh-CN' text = 'my apple 123' values = {'hl':'zh-CN', 'ie':'UTF-8', 'text':text, 'sl':lin, 'tl':lout} url = 'http://translate.google.cn/translate_t' data = urllib.urlencode(values) req = urllib2.Request(url, data) req.add_header('User-Agent', "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 2.0.50727)") response = urllib2.urlopen(req, timeout = 10) shtml = response.read() response.close() hdoc =