Python网络爬虫技术---第一讲_网站禁止爬取文件夹-CSDN博客

本文链接：https://blog.csdn.net/qq_63937626/article/details/133891415

本文介绍了网络爬虫的基本概念，包括其工作原理和常见的分类，如增量式、通用、聚焦和深度爬虫。同时详细讲解了robots.txt的作用，以及如何使用Python库如BeautifulSoup、lxml、PyQuery和requests进行网页内容的抓取和解析。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

什么是爬虫？

网络爬虫是一种自动化程序，用于从互联网上收集信息。它通过访问网页并提取所需的数据，然后将数据保存或进行进一步处理。网络爬虫通常用于搜索引擎索引、数据挖掘、价格比较、内容聚合等任务。它们可以按照预定的规则遍历网页，并提取有用的信息，如文本、图像、链接等。网络爬虫可以使用各种编程语言和工具来实现。

爬虫的分类

增量式网络爬虫

增量式爬虫用于更新已经爬取的网页数据。它们会定期重新访问已经爬取的网页，并检查是否有新的内容或更新的信息。

通用网络爬虫

通用爬虫旨在遍历互联网上的所有网页，并收集尽可能多的信息。它们通常由搜索引擎使用，用于构建搜索引擎索引。

聚焦网络爬虫

聚焦爬虫是针对特定网站或特定类型的网页进行设计的。它们只会访问指定的网站或特定的网页，并提取相关信息。

深度网络爬虫

深度爬虫是一种能够遍历网页内部链接的爬虫。它们可以通过跟踪链接深入到网站的各个页面，以获取更多的信息。

表单提交爬虫

表单提交爬虫用于模拟用户在网页上填写表单并提交数据的行为。它们可以用于自动化网站的登录、搜索和数据提交等操作。

分布式爬虫

分布式爬虫是一种使用多台计算机协同工作的爬虫系统。它们可以提高爬取效率和处理大规模数据的能力。

robots.texts

概念

robots.txt 是一个文本文件，用于指示网络爬虫（也称为机器人）如何访问一个网站的特定页面或文件。它位于网站的根目录下，并遵循特定的语法和规则。

网站管理员可以使用 robots.txt 文件来告知搜索引擎爬虫哪些页面可以被访问，哪些页面应该被忽略。这可以帮助网站控制搜索引擎爬虫的访问行为，以保护敏感信息、限制爬取频率或避免爬虫访问不必要的页面。

主要指令

User-urgent

指定要应用规则的爬虫类型

Disallow

指定不允许访问的页面或文件的路径

希望禁止爬取一个文件夹ABC中的文件时：

User-agent: *
Disallow: /folder/

以上代码中，User-agent: * 表示适用于所有爬虫。Disallow: /folder/ 表示禁止爬虫访问名为 "folder" 的文件夹及其下的所有文件。

解析网页的库

1. BeautifulSoup

BeautifulSoup 是一个流行的Python库，用于从HTML或XML文档中提取数据。它提供了简单而灵活的API，使得解析网页变得容易。

- 使用 open() 函数创建一个文件对象，然后使用文件对象的 write() 方法将数据写入文件中。例如：

     from bs4 import BeautifulSoup

     # 创建一个BeautifulSoup对象
     soup = BeautifulSoup(html, 'html.parser')

     # 打开文件并写入数据
     with open('output.html', 'w') as file:
         file.write(soup.prettify())

2. lxml

lxml 是一个高性能的Python库，用于解析XML和HTML文档。它基于C语言库 libxml2 和 libxslt，提供了快速而稳定的解析能力。

- 使用 open() 函数创建一个文件对象，然后使用 lxml.etree 模块的 tostring() 方法将数据转换为字符串，并将字符串写入文件中。例如：

from lxml import etree

     # 创建一个lxml的Element对象
     root = etree.Element('root')
     child = etree.SubElement(root, 'child')
     child.text = 'Hello World'

     # 打开文件并写入数据
     with open('output.xml', 'wb') as file:
         file.write(etree.tostring(root, pretty_print=True))

3. PyQuery

PyQuery 是一个类似于 jQuery 的库，用于解析和操作HTML文档。它提供了类似于CSS选择器的语法，使得从网页中提取数据变得简单。

- 使用 open() 函数创建一个文件对象，然后使用文件对象的 write() 方法将数据写入文件中。例如：

from pyquery import PyQuery as pq

     # 创建一个PyQuery对象
     doc = pq(html)

     # 打开文件并写入数据
     with open('output.txt', 'w') as file:
         file.write(doc.text())

4. html.parser

html.parser 是Python标准库中的一个模块，用于解析HTML文档。它提供了基本的解析功能，适用于简单的HTML解析任务。

- 使用 open() 函数创建一个文件对象，然后使用文件对象的 write() 方法将数据写入文件中。例如：

 from html.parser import HTMLParser

     class MyHTMLParser(HTMLParser):
         def handle_data(self, data):
             # 处理数据

     parser = MyHTMLParser()

     # 解析HTML并处理数据
     parser.feed(html)

     # 打开文件并写入数据
     with open('output.txt', 'w') as file:
         file.write(parser.data)

5. XPath

XPath 是一种用于在XML和HTML文档中定位元素的语言。许多编程语言都提供了XPath解析库，如Python的 lxml 库和 Java 的 Jsoup 库。

requests

requests库是一个用于发送HTTP请求的Python库，它可以用于获取网页的原始HTML内容。

虽然requests库本身并不是专门用于解析网页的库，但它通常与其他解析库（如BeautifulSoup、lxml等）结合使用，以获取网页内容并进行进一步的解析和处理：

import requests
from bs4 import BeautifulSoup

# 发送HTTP请求获取网页内容
response = requests.get('http://example.com')

# 使用BeautifulSoup解析网页内容
soup = BeautifulSoup(response.text, 'html.parser')

# 提取需要的数据
data = soup.find('div', class_='my-class').text

# 打印提取的数据
print(data)

在上面的示例中，我们首先使用requests库发送HTTP请求，获取网页的原始HTML内容。

然后，我们使用BeautifulSoup库对HTML内容进行解析，并使用其提供的方法（如find、find_all等）提取需要的数据。

注意：

requests库和解析库（如BeautifulSoup、lxml等）是两个独立的库，它们各自有不同的功能和用途。requests库用于发送HTTP请求，获取网页内容；而解析库用于解析和处理网页内容。因此，在解析网页时，通常需要结合使用这两个库来完成任务。