数据采集与预处理之xpath爬取豆瓣电影新片榜信息（完整版）

最新推荐文章于 2024-06-21 10:51:34 发布

摸爬打滚的小M

最新推荐文章于 2024-06-21 10:51:34 发布

阅读量1k

点赞数 22

文章标签： python

本文链接：https://blog.csdn.net/m0_68467925/article/details/137250621

版权

本文介绍了如何使用Python通过XPath从豆瓣电影新片榜抓取信息，包括设置防止反爬机制、保存数据以及处理多个页面的方法。通过示例代码详细解释了XPath查询HTML文档的技巧，提醒开发者在爬虫实践中要注意遵守网站的使用条款和道德规范。

摘要由CSDN通过智能技术生成

一、xpath获取信息内容的多种方式

type=html.xpath('//*[@id="info"]/span[@property="v:genre"]/text()')
nation=html.xpath('//*[@id="info"]/span[@class="pl"][2]/following-sibling::text()')

这两行代码是使用XPath查询语言从HTML文档中提取信息的例子。XPath是用于在XML文档中查找信息的语言，也常用于HTML文档，特别是在网页抓取和数据提取中。

第一行代码：
type=html.xpath('//*[@id="info"]/span[@property="v:genre"]/text()')

这行代码正在尝试从HTML文档中提取与特定元素相关的文本。它查找：
1、一个元素，其id属性值为info。
2、在这个元素内部，查找一个span元素，其property属性值为v:genre。
3、提取这个span元素的文本内容。

返回的type将是一个包含提取到的文本内容的列表（即使只有一个匹配的元素，也会返回一个列表）。

第二行代码：
nation=html.xpath('//*[@id="info"]/span[@class="pl"][2]/following-sibling::text()')
这行代码执行了以下操作：

查找一个元素，其id属性值为info。
1、在这个元素内部，查找所有span元素，其class属性值为pl。
2、选择这些span元素中的第二个（因为使用了[2]索引）。
3、使用following-sibling::text()来提取该span元素后面直接跟随的文本内容。
同样，返回的nation将是一个包含提取到的文本内容的列表。

注意：这些代码片段似乎是从使用lxml或Scrapy（或其他类似的库）的Python脚本中摘取的。XPath查询是通过html.xpath()方法执行的，其中html可能是一个lxml的Element对象或一个Scrapy的Selector对象。

在使用XPath查询时，要确保HTML文档的结构与你的查询相匹配，因为任何小的结构变化都可能导致查询失败或返回错误的结果。