-
什么是爬虫?
网络爬虫是一种自动化程序,用于从互联网上收集信息。它通过访问网页并提取所需的数据,然后将数据保存或进行进一步处理。网络爬虫通常用于搜索引擎索引、数据挖掘、价格比较、内容聚合等任务。它们可以按照预定的规则遍历网页,并提取有用的信息,如文本、图像、链接等。网络爬虫可以使用各种编程语言和工具来实现。
-
爬虫的分类
增量式网络爬虫
增量式爬虫用于更新已经爬取的网页数据。它们会定期重新访问已经爬取的网页,并检查是否有新的内容或更新的信息。
通用网络爬虫
通用爬虫旨在遍历互联网上的所有网页,并收集尽可能多的信息。它们通常由搜索引擎使用,用于构建搜索引擎索引。
聚焦网络爬虫
聚焦爬虫是针对特定网站或特定类型的网页进行设计的。它们只会访问指定的网站或特定的网页,并提取相关信息。
深度网络爬虫
深度爬虫是一种能够遍历网页内部链接的爬虫。它们可以通过跟踪链接深入到网站的各个页面,以获取更多的信息。
表单提交爬虫
表单提交爬虫用于模拟用户在网页上填写表单并提交数据的行为。它们可以用于自动化网站的登录、搜索和数据提交等操作。
分布式爬虫
分布式爬虫是一种使用多台计算机协同工作的爬虫系统。它们可以提高爬取效率和处理大规模数据的能力。
-
robots.texts
概念
robots.txt 是一个文本文件,用于指示网络爬虫(也称为机器人)如何访问一个网站的特定页面或文件。它位于网站的根目录下,并遵循特定的语法和规则。
网站管理员可以使用 robots.txt 文件来告知搜索引擎爬虫哪些页面可以被访问,哪些页面应该被忽略。这可以帮助网站控制搜索引擎爬虫的访问行为,以保护敏感信息、限制爬取频率或避免爬虫访问不必要的页面。
主要指令
User-urgent
指定要应用规则的爬虫类型
Disallow
指定不允许访问的页面或文件的路径
希望禁止爬取一个文件夹ABC中的文件时:
User-agent: *
Disallow: /folder/
以上代码中,User-agent: * 表示适用于所有爬虫。Disallow: /folder/ 表示禁止爬虫访问名为 "folder" 的文件夹及其下的所有文件。
解析网页的库
1. BeautifulSoup
BeautifulSoup 是一个流行的Python库,用于从HTML或XML文档中提取数据。它提供了简单而灵活的API,使得解析网页变得容易。
- 使用 open() 函数创建一个文件对象,然后使用文件对象的 write() 方法将数据写入文件中。例如:
from bs4 import BeautifulSoup
# 创建一个BeautifulSoup对象
soup = BeautifulSoup(html, 'html.parser')
# 打开文件并写入数据
with open('output.html', 'w') as file:
file.write(soup.prettify())
2. lxml
lxml 是一个高性能的Python库,用于解析XML和HTML文档。它基于C语言库 libxml2 和 libxslt,提供了快速而稳定的解析能力。
- 使用 open() 函数创建一个文件对象,然后使用 lxml.etree 模块的 tostring() 方法将数据转换为字符串,并将字符串写入文件中。例如:
from lxml import etree
# 创建一个lxml的Element对象
root = etree.Element('root')
child = etree.SubElement(root, 'child')
child.text = 'Hello World'
# 打开文件并写入数据
with open('output.xml', 'wb') as file:
file.write(etree.tostring(root, pretty_print=True))
3. PyQuery
PyQuery 是一个类似于 jQuery 的库,用于解析和操作HTML文档。它提供了类似于CSS选择器的语法,使得从网页中提取数据变得简单。
- 使用 open() 函数创建一个文件对象,然后使用文件对象的 write() 方法将数据写入文件中。例如:
from pyquery import PyQuery as pq
# 创建一个PyQuery对象
doc = pq(html)
# 打开文件并写入数据
with open('output.txt', 'w') as file:
file.write(doc.text())
4. html.parser
html.parser 是Python标准库中的一个模块,用于解析HTML文档。它提供了基本的解析功能,适用于简单的HTML解析任务。
- 使用 open() 函数创建一个文件对象,然后使用文件对象的 write() 方法将数据写入文件中。例如:
from html.parser import HTMLParser
class MyHTMLParser(HTMLParser):
def handle_data(self, data):
# 处理数据
parser = MyHTMLParser()
# 解析HTML并处理数据
parser.feed(html)
# 打开文件并写入数据
with open('output.txt', 'w') as file:
file.write(parser.data)
5. XPath
XPath 是一种用于在XML和HTML文档中定位元素的语言。许多编程语言都提供了XPath解析库,如Python的 lxml 库和 Java 的 Jsoup 库。
**requests**
requests库是一个用于发送HTTP请求的Python库,它可以用于获取网页的原始HTML内容。
虽然requests库本身并不是专门用于解析网页的库,但它通常与其他解析库(如BeautifulSoup、lxml等)结合使用,以获取网页内容并进行进一步的解析和处理:
import requests
from bs4 import BeautifulSoup
# 发送HTTP请求获取网页内容
response = requests.get('http://example.com')
# 使用BeautifulSoup解析网页内容
soup = BeautifulSoup(response.text, 'html.parser')
# 提取需要的数据
data = soup.find('div', class_='my-class').text
# 打印提取的数据
print(data)
在上面的示例中,我们首先使用requests库发送HTTP请求,获取网页的原始HTML内容。
然后,我们使用BeautifulSoup库对HTML内容进行解析,并使用其提供的方法(如find、find_all等)提取需要的数据。
注意:
requests库和解析库(如BeautifulSoup、lxml等)是两个独立的库,它们各自有不同的功能和用途。requests库用于发送HTTP请求,获取网页内容;而解析库用于解析和处理网页内容。因此,在解析网页时,通常需要结合使用这两个库来完成任务。