目录
一、xpath获取信息内容的多种方式
type=html.xpath('//*[@id="info"]/span[@property="v:genre"]/text()')
nation=html.xpath('//*[@id="info"]/span[@class="pl"][2]/following-sibling::text()')
这两行代码是使用XPath查询语言从HTML文档中提取信息的例子。XPath是用于在XML文档中查找信息的语言,也常用于HTML文档,特别是在网页抓取和数据提取中。
第一行代码:
type=html.xpath('//*[@id="info"]/span[@property="v:genre"]/text()')
这行代码正在尝试从HTML文档中提取与特定元素相关的文本。它查找:
1、一个元素,其id属性值为info。
2、在这个元素内部,查找一个span元素,其property属性值为v:genre。
3、提取这个span元素的文本内容。
返回的type将是一个包含提取到的文本内容的列表(即使只有一个匹配的元素,也会返回一个列表)。
第二行代码:
nation=html.xpath('//*[@id="info"]/span[@class="pl"][2]/following-sibling::text()')
这行代码执行了以下操作:
查找一个元素,其id属性值为info。
1、在这个元素内部,查找所有span元素,其class属性值为pl。
2、选择这些span元素中的第二个(因为使用了[2]索引)。
3、使用following-sibling::text()来提取该span元素后面直接跟随的文本内容。
同样,返回的nation将是一个包含提取到的文本内容的列表。
注意:这些代码片段似乎是从使用lxml或Scrapy(或其他类似的库)的Python脚本中摘取的。XPath查询是通过html.xpath()方法执行的,其中html可能是一个lxml的Element对象或一个Scrapy的Selector对象。
在使用XPath查询时,要确保HTML文档的结构与你的查询相匹配,因为任何小的结构变化都可能导致查询失败或返回错误的结果。
二、防止反爬机制
设置自定义的User-Agent
是防止反爬机制的一个常见做法,因为很多网站会检查请求头的User-Agent
字段来识别是否来自常见的浏览器。如果User-Agent
字段表明请求来自一个脚本或自动化工具,网站可能会拒绝服务或返回错误的信息。
然而,仅仅设置User-Agent
是不足以完全防止反爬机制的。网站可能还会使用其他技术来检测并阻止爬虫,包括但不限于:
-
检查请求频率:如果爬虫发送请求的频率