python爬虫最全教程

一只会写程序的猫

已于 2023-08-30 18:17:10 修改

阅读量992

点赞数

分类专栏： Python 文章标签： python 爬虫 beautifulsoup

于 2023-08-30 18:09:05 首次发布

本文链接：https://blog.csdn.net/hitpter/article/details/132584528

版权

Python 专栏收录该内容

72 篇文章 8 订阅

订阅专栏

Python爬虫是一种自动化的网络数据抓取工具，利用编程语言Python来获取互联网上的信息。在当今信息爆炸的时代，数据已经成为决策和发展的重要基础。而Python爬虫作为一种强大的工具，不仅可以帮助我们获取网络上的数据，还可以进行数据清洗、分析和挖掘。

无论是市场调研、竞争情报还是舆情监测，Python爬虫都能够帮助我们快速获取大量数据，并从中提取出有价值的信息。例如，我们可以利用Python爬虫获取电商网站上的商品信息和价格，进行产品定价和市场分析；我们也可以使用Python爬虫来监测社交网络上的热门话题和评论，了解用户的需求和反馈。

此外，Python爬虫还在许多领域得到广泛应用，包括金融、医疗、教育、新闻等。无论是企业的业务拓展，还是学术研究和政策制定，Python爬虫都发挥着重要作用。

在接下来的文章中，我们将介绍Python爬虫的基础知识、常用库及其使用方法，并提供实例演示和注意事项，帮助您更好地掌握和应用Python爬虫技术。无论您是初学者还是有一定经验的开发者，相信这篇文章都能为您提供有价值的内容和指导。让我们一起开始吧！

【一、基础知识】

在这个部分，我们将详细介绍Python爬虫的基础知识，包括HTTP协议、HTML、CSS、JavaScript、正则表达式、XPath和CSS选择器。通过了解这些基础知识，您将能够更好地理解和应用Python爬虫的技术。

首先，HTTP协议是网页通信的基础，它定义了浏览器和服务器之间传输数据的规则。了解HTTP协议的工作原理和常用的请求方法（如GET和POST）对于理解爬虫的工作原理至关重要。

其次，HTML是网页的基本结构语言，它描述了网页的组织结构和内容。了解HTML的标签和元素，以及如何通过解析HTML文档来提取数据，是爬虫的基础。

CSS（层叠样式表）和JavaScript（脚本语言）是网页的样式和交互的重要组成部分。了解CSS和JavaScript的基本语法和功能，对于爬取动态网页内容和提取特定样式的数据非常有帮助。

正则表达式是一种强大的文本匹配工具，可以用于从文本中提取特定模式的数据。掌握正则表达式的基本语法和常用函数，可以帮助您更加灵活和高效地处理网页内容。

XPath和CSS选择器是两种常用的选择工具，用于定位和提取HTML文档中的元素。了解它们的基本语法和用法，可以帮助您更加精准地定位和提取需要的数据。

在接下来的部分，我们将逐个介绍这些基础知识，并提供示例代码以展示其使用方法。通过学习这些知识，您将能够更加熟练地编写Python爬虫，并有效地获取所需的数据。让我们继续深入学习吧！

1. HTTP协议

HTTP（Hypertext Transfer Protocol）是一种用于传输超文本的应用层协议。它是Web通信的基础，定义了浏览器和服务器之间传输数据的规则。在爬虫中，我们通常使用HTTP协议进行网页的请求和响应。

HTTP协议的工作原理如下：

客户端（通常是浏览器）向服务器发送请求，请求可以是获取网页、提交表单、下载文件等。
服务器接收到请求后，根据请求的类型和参数进行相应的处理。
服务器返回响应，响应中包含了请求的结果和相关信息，例如网页的内容、状态码等。
客户端接收到响应后，根据响应的内容进行相应的处理，例如显示网页内容、保存文件等。

Python中有许多库可以用于发送HTTP请求和处理HTTP响应，例如requests库和urllib库。这些库提供了简单易用的API，使得发送HTTP请求和处理响应变得非常方便。

以下是一个使用requests库发送HTTP请求的示例代码：

import requests

# 发送GET请求
response = requests.get('http://example.com')
print(response.status_code)  # 打印状态码
print(response.text)  # 打印响应内容

# 发送POST请求
data = {'username': 'admin', 'password': '123456'}
response = requests.post('http://example.com/login', data=data)
print(response.status_code)  # 打印状态码
print(response.json())  # 解析响应内容为JSON格式

在这个示例中，我们使用了requests库发送了GET请求和POST请求，并打印了响应的状态码和内容。

通过学习HTTP协议的基础知识，您将能够更好地理解和使用Python爬虫的相关技术。在接下来的部分，我们将介绍HTML的基础知识。

2. HTML、CSS和JavaScript

HTML（Hypertext Markup Language）是一种用于创建网页的标记语言。它由一系列的标签（tag）组成，通过这些标签可以定义网页的结构和内容。

HTML标签通常由一对尖括号包围，例如<tagname>，其中tagname表示标签的名称。标签可以有属性（attribute），属性可以用来提供额外的信息或设置标签的行为。属性通常以键值对的形式出现，例如<tagname attribute="value">。

以下是HTML中常用的一些标签：

<html>：定义HTML文档的根元素。
<head>：定义HTML文档的头部分，通常包含网页的标题、样式表（CSS）和脚本（JavaScript）等元数据。
<body>：定义HTML文档的主体部分，包含网页的实际内容。
<h1> ~ <h6>：定义标题，从大到小分别用于表示一级标题到六级标题。
<p>：定义段落。
<a>：定义超链接，用于创建链接到其他网页或同一网页的链接。
<img>：定义图像，用于在网页中显示图片。
<table>：定义表格，用于展示结构化的数据。
<form>：定义表单，用于用户输入数据并提交到服务器。
<input>：定义输入字段，用于接受用户的输入。

以下是一个简单的HTML示例：

<!DOCTYPE html>
<html>
<head>
    <title>My Web Page</title>
</head>
<body>
    <h1>Welcome to My Web Page</h1>
    <p>This is a paragraph.</p>
    <a href="http://www.example.com">Visit Example.com</a>
    <img src="image.jpg" alt="Image">
</body>
</html>

在这个示例中，我们定义了一个简单的HTML文档，其中包含了标题、一个段落、一个超链接和一张图片。

通过了解HTML的基础知识，您将能够更好地理解和处理网页内容。在接下来的部分，我们将介绍如何使用Python解析和提取HTML内容。

3. 正则表达式

在Python中，有几个流行的库可用于解析和处理HTML内容，其中最受欢迎的是BeautifulSoup库和lxml库。

BeautifulSoup库：
BeautifulSoup是一个功能强大的库，用于从HTML或XML文档中提取数据。它提供了简单且易于使用的API，可以帮助您遍历和搜索HTML标记，从而提取所需的内容。

首先，您需要安装BeautifulSoup库。可以使用以下命令使用pip安装：

pip install beautifulsoup4

下面是使用BeautifulSoup库解析HTML的简单示例：

from bs4 import BeautifulSoup

# HTML示例
html = '''
<html>
<head>
    <title>My Web Page</title>
</head>
<body>
    <h1>Welcome to My Web Page</h1>
    <p>This is a paragraph.</p>
    <a href="http://www.example.com">Visit Example.com</a>
    <img src="image.jpg" alt="Image">
</body>
</html>
'''

# 创建BeautifulSoup对象
soup = BeautifulSoup(html, 'html.parser')

# 提取标题
title = soup.title.text
print("标题:", title)

# 提取段落
paragraph = soup.p.text
print("段落:", paragraph)

# 提取超链接
link = soup.a['href']
print("链接:", link)

# 提取图片
img = soup.img['src']
print("图片:", img)

运行上述代码，您将得到以下输出：

标题: My Web Page
段落: This is a paragraph.
链接: http://www.example.com
图片: image.jpg

lxml库：
lxml是Python中另一个流行的HTML解析库，它使用C语言编写，因此在速度和性能方面比BeautifulSoup更快。与BeautifulSoup一样，lxml也提供了一组方便的API来解析和提取HTML内容。

首先，您需要安装lxml库。可以使用以下命令使用pip安装：

pip install lxml

下面是使用lxml库解析HTML的简单示例：

from lxml import etree

# HTML示例
html = '''
<html>
<head>
    <title>My Web Page</title>
</head>
<body>
    <h1>Welcome to My Web Page</h1>
    <p>This is a paragraph.</p>
    <a href="http://www.example.com">Visit Example.com</a>
    <img src="image.jpg" alt="Image">
</body>
</html>
'''

# 创建lxml解析器对象
parser = etree.HTMLParser()

# 解析HTML
tree = etree.fromstring(html, parser)

# 提取标题
title = tree.findtext('.//title')
print("标题:", title)

# 提取段落
paragraph = tree.findtext('.//p')
print("段落:", paragraph)

# 提取超链接
link = tree.xpath('.//a/@href')
print("链接:", link)

# 提取图片
img = tree.xpath('.//img/@src')
print("图片:", img)

运行上述代码，您将得到与使用BeautifulSoup相同的输出结果。

通过使用BeautifulSoup或lxml库，您可以方便地解析和提取HTML文档中的内容。这对于从网页中获取数据或进行网页爬取非常有用。

4. XPath和CSS选择器

了解XPath和CSS选择器的基本用法，它们是解析网页的常用工具。

【二、常用库】

1. Requests

使用Requests库发送HTTP请求，获取网页内容。

2. Beautiful Soup

使用Beautiful Soup库解析网页，提取需要的数据。

3. Selenium

使用Selenium库模拟浏览器操作，处理动态网页和JavaScript渲染。

4. Scrapy

学习使用Scrapy库，它是一个功能强大的爬虫框架，能够高效地爬取大量网页。

【三、实例演示】

1. 简单爬虫

编写一个简单的爬虫程序，获取网页内容并保存到本地。

import requests

def save_webpage(url, filename):
    response = requests.get(url)
    if response.status_code == 200:
        with open(filename, 'w', encoding='utf-8') as file:
            file.write(response.text)
        print(f"网页内容已保存到文件 {filename} 中。")
    else:
        print("无法获取网页内容。")

# 指定要爬取的网页URL
url = "http://example.com"
# 指定保存的文件名
filename = "webpage.html"

# 调用函数进行爬取和保存
save_webpage(url, filename)

这个程序使用了Python的requests库来发送HTTP请求，并通过get()方法获取网页的内容。然后，判断响应的状态码是否为200，如果是，就将网页内容保存到指定的文件中。

您只需将上述代码保存为一个Python文件，运行即可。请确保您已经安装了requests库，可以使用以下命令安装：

pip install requests

您可以根据需要修改URL和文件名来爬取不同的网页内容并保存。

2. 图片爬虫

编写一个爬虫程序，从网页中提取图片链接，并下载保存图片。

import requests
from bs4 import BeautifulSoup
import os

def download_image(url, save_path):
    response = requests.get(url)
    if response.status_code == 200:
        with open(save_path, 'wb') as file:
            file.write(response.content)
        print(f"图片已保存到 {save_path}。")
    else:
        print("无法下载图片。")

def extract_image_links(url):
    response = requests.get(url)
    if response.status_code == 200:
        soup = BeautifulSoup(response.text, 'html.parser')
        image_links = []
        for img in soup.find_all('img'):
            image_links.append(img['src'])
        return image_links
    else:
        return []

def save_images_from_url(url, save_dir):
    image_links = extract_image_links(url)
    if not image_links:
        print("未找到图片链接。")
        return
    if not os.path.exists(save_dir):
        os.makedirs(save_dir)
    for link in image_links:
        image_url = link
        image_name = link.split('/')[-1]
        save_path = os.path.join(save_dir, image_name)
        download_image(image_url, save_path)

# 指定要爬取的网页URL
url = "http://example.com"
# 指定保存图片的文件夹
save_dir = "images"

# 调用函数进行爬取和保存图片
save_images_from_url(url, save_dir)

这个程序使用了Python的requests库来发送HTTP请求，并使用BeautifulSoup库来解析网页内容。首先，通过extract_image_links()函数从网页中提取所有图片链接。然后，通过download_image()函数下载并保存每个图片。

您只需将上述代码保存为一个Python文件，运行即可。请确保您已经安装了requests和beautifulsoup4库，可以使用以下命令安装：

pip install requests
pip install beautifulsoup4

您可以根据需要修改URL和保存图片的文件夹路径来爬取不同网页的图片并保存。

3. 数据爬取

编写一个爬虫程序，从网页中提取指定数据，并保存到CSV、Excel或数据库中。

import requests
from bs4 import BeautifulSoup
import csv
import pandas as pd
import sqlite3

def extract_data(url):
    response = requests.get(url)
    if response.status_code == 200:
        soup = BeautifulSoup(response.text, 'html.parser')
        # 在这里根据网页结构提取数据
        # 示例：提取所有标题和内容
        data = []
        for item in soup.find_all('div', class_='item'):
            title = item.find('h2').text.strip()
            content = item.find('p').text.strip()
            data.append({'title': title, 'content': content})
        return data
    else:
        return []

def save_to_csv(data, csv_file):
    with open(csv_file, 'w', newline='', encoding='utf-8') as file:
        writer = csv.DictWriter(file, fieldnames=data[0].keys())
        writer.writeheader()
        writer.writerows(data)
    print(f"数据已保存到 {csv_file}。")

def save_to_excel(data, excel_file):
    df = pd.DataFrame(data)
    df.to_excel(excel_file, index=False)
    print(f"数据已保存到 {excel_file}。")

def save_to_database(data, db_file):
    conn = sqlite3.connect(db_file)
    c = conn.cursor()
    c.execute('''CREATE TABLE IF NOT EXISTS data
                 (id INTEGER PRIMARY KEY AUTOINCREMENT, title TEXT, content TEXT)''')
    c.executemany("INSERT INTO data (title, content) VALUES (?, ?)",
                  [(item['title'], item['content']) for item in data])
    conn.commit()
    conn.close()
    print(f"数据已保存到 {db_file}。")

# 指定要爬取的网页URL
url = "http://example.com"
# 指定保存数据的文件路径或数据库文件路径
csv_file = "data.csv"
excel_file = "data.xlsx"
db_file = "data.db"

# 调用函数进行爬取和保存数据
data = extract_data(url)
if data:
    save_to_csv(data, csv_file)
    save_to_excel(data, excel_file)
    save_to_database(data, db_file)

将上述代码保存为一个Python文件，运行即可。请确保您已经安装了requests、beautifulsoup4、pandas和sqlite3库，可以使用以下命令安装：

pip install requests
pip install beautifulsoup4
pip install pandas

在示例代码中，extract_data()函数使用beautifulsoup4库从网页中提取数据。您可以根据网页结构修改该函数以提取您需要的数据。

然后，根据需要，使用save_to_csv()函数将数据保存到CSV文件，使用save_to_excel()函数将数据保存到Excel文件，或使用save_to_database()函数将数据保存到SQLite数据库中。您可以根据需要选择其中一个函数来保存数据。请注意，在将数据保存到数据库时，程序会创建一个名为data的表来存储数据。

最后，您可以根据需要修改URL和保存数据的文件路径或数据库文件路径来爬取不同网页的数据并保存。

4. 动态网页爬取

使用Selenium库模拟浏览器操作，爬取动态网页中的数据。

首先，确保您已经安装了Selenium库和相应的WebDriver驱动程序（例如Chrome驱动程序）。可以使用以下命令安装Selenium库：

pip install selenium

然后，根据您使用的浏览器和操作系统，下载相应的WebDriver驱动程序，并将其放在一个可供Python访问的位置。

接下来，使用以下代码示例来爬取动态网页中的数据：

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.by import By
import time

# 创建Chrome浏览器选项
options = Options()
# 设置无头模式，即不显示浏览器窗口
options.headless = True

# 指定Chrome驱动程序路径
driver_path = "path/to/chromedriver"

# 创建Chrome浏览器对象
driver = webdriver.Chrome(executable_path=driver_path, options=options)

# 打开网页
driver.get("http://example.com")

# 模拟执行JavaScript代码（例如，点击按钮、滚动页面等）
driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
time.sleep(2)  # 等待2秒，以便页面加载完全

# 使用XPath定位元素并提取数据
elements = driver.find_elements(By.XPATH, "//div[@class='item']")
data = []
for item in elements:
    title = item.find_element(By.XPATH, "./h2").text.strip()
    content = item.find_element(By.XPATH, "./p").text.strip()
    data.append({'title': title, 'content': content})

# 关闭浏览器
driver.quit()

# 打印爬取到的数据
for item in data:
    print(item)

在上述示例中，我们使用Chrome浏览器和Chrome驱动程序来演示。您可以根据需要更改浏览器类型和驱动程序。

然后，我们创建了一个ChromeOptions对象，并将其配置为无头模式，即不显示浏览器窗口。

接下来，我们指定Chrome驱动程序的路径，并创建了一个WebDriver对象，即Chrome浏览器的实例。

然后，我们使用get()方法打开要爬取的网页。

接着，我们可以使用execute_script()方法模拟执行JavaScript代码，例如点击按钮、滚动页面等。这可以让网页加载动态内容。

然后，我们使用find_elements()方法和XPath定位元素，提取需要的数据。在示例中，我们提取了所有带有class属性为item的div元素，并从中提取标题和内容。

最后，我们关闭了浏览器，并打印出爬取到的数据。

您可以根据需要修改代码中的URL、XPath表达式和数据处理部分，以适应不同的动态网页和数据提取需求。

【四、注意事项】

1. 网页的合法性

在爬取网页时，要确保自己的行为合法合规，尊重网站的规则和隐私权。

2. 频率限制

为了避免对服务器造成过大的负担，爬虫程序应该设置适当的访问频率限制，避免过于频繁的请求。

3. 反爬虫机制

一些网站会设置反爬虫机制，对爬虫程序进行限制。在爬取这些网站时，需要学习如何绕过反爬虫机制，避免被屏蔽。

4. 数据处理和存储

爬取的数据可能会很庞大，需要学习如何进行数据处理和存储，以便后续的分析和使用。

【结语】

以上是Python爬虫的最全教程，包括基础知识、常用库和实例演示。通过学习这些内容，你将能够掌握Python爬虫的基本原理和技术，并能够编写自己的爬虫程序。在学习和使用爬虫的过程中，要遵守相关规则和道德标准，确保自己的行为合法合规。祝你在Python爬虫之旅中取得成功！

一只会写程序的猫

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
python爬虫最全教程

以上是Python爬虫的最全教程，包括基础知识、常用库和实例演示。通过学习这些内容，你将能够掌握Python爬虫的基本原理和技术，并能够编写自己的爬虫程序。在学习和使用爬虫的过程中，要遵守相关规则和道德标准，确保自己的行为合法合规。祝你在Python爬虫之旅中取得成功！
复制链接

扫一扫