数据采集与预处理之xpath爬取豆瓣电影新片榜信息(完整版)

本文介绍了如何使用Python通过XPath从豆瓣电影新片榜抓取信息,包括设置防止反爬机制、保存数据以及处理多个页面的方法。通过示例代码详细解释了XPath查询HTML文档的技巧,提醒开发者在爬虫实践中要注意遵守网站的使用条款和道德规范。
摘要由CSDN通过智能技术生成

目录

一、xpath获取信息内容的多种方式

二、防止反爬机制

 三、保存获取信息

 四、对不同页面的爬取

五、完整代码


 

一、xpath获取信息内容的多种方式

type=html.xpath('//*[@id="info"]/span[@property="v:genre"]/text()')
nation=html.xpath('//*[@id="info"]/span[@class="pl"][2]/following-sibling::text()')

这两行代码是使用XPath查询语言从HTML文档中提取信息的例子。XPath是用于在XML文档中查找信息的语言,也常用于HTML文档,特别是在网页抓取和数据提取中。 

第一行代码
type=html.xpath('//*[@id="info"]/span[@property="v:genre"]/text()')

这行代码正在尝试从HTML文档中提取与特定元素相关的文本。它查找:
1、一个元素,其id属性值为info。
2、在这个元素内部,查找一个span元素,其property属性值为v:genre。
3、提取这个span元素的文本内容。

返回的type将是一个包含提取到的文本内容的列表(即使只有一个匹配的元素,也会返回一个列表)。

第二行代码
nation=html.xpath('//*[@id="info"]/span[@class="pl"][2]/following-sibling::text()')
这行代码执行了以下操作:

查找一个元素,其id属性值为info。
1、在这个元素内部,查找所有span元素,其class属性值为pl。
2、选择这些span元素中的第二个(因为使用了[2]索引)。
3、使用following-sibling::text()来提取该span元素后面直接跟随的文本内容。
同样,返回的nation将是一个包含提取到的文本内容的列表。

注意:这些代码片段似乎是从使用lxml或Scrapy(或其他类似的库)的Python脚本中摘取的。XPath查询是通过html.xpath()方法执行的,其中html可能是一个lxml的Element对象或一个Scrapy的Selector对象。

在使用XPath查询时,要确保HTML文档的结构与你的查询相匹配,因为任何小的结构变化都可能导致查询失败或返回错误的结果。

二、防止反爬机制

设置自定义的User-Agent是防止反爬机制的一个常见做法,因为很多网站会检查请求头的User-Agent字段来识别是否来自常见的浏览器。如果User-Agent字段表明请求来自一个脚本或自动化工具,网站可能会拒绝服务或返回错误的信息。

然而,仅仅设置User-Agent是不足以完全防止反爬机制的。网站可能还会使用其他技术来检测并阻止爬虫,包括但不限于:

  1. 检查请求频率:如果爬虫发送请求的频率

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

摸爬打滚的小M

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值