Python爬虫入门：15行代码搞定

高天艳阳

于 2024-08-26 16:50:59 发布

阅读量1.1k

点赞数 23

本文链接：https://blog.csdn.net/weixin_42589700/article/details/141591520

版权

本文还有配套的精品资源，点击获取 menu-r.4af5f7ec.gif

简介：本"Python爬虫入门：15行代码搞定"文件提供了一个简洁的Python爬虫示例，旨在帮助初学者快速理解爬虫的基本工作原理。通过15行代码，我们将了解HTTP/HTTPS协议、requests库、BeautifulSoup库、HTML和DOM结构、选择器、数据提取、异常处理、数据存储、限制与道德规范以及IP代理等关键知识点。这个示例是学习更复杂爬虫技术的良好起点。最简单爬虫例子（15行内）.rar

1. 爬虫基础理论

爬虫，又称网络爬虫或网络蜘蛛，是一种自动获取互联网上信息的计算机程序。其主要功能是通过网络请求获取网页内容，并从中提取所需数据。爬虫在互联网数据挖掘、搜索引擎、价格监控等领域有着广泛的应用。

爬虫的基本工作原理包括：

URL请求： 向目标网站发送HTTP/HTTPS请求，获取网页内容。
数据解析： 使用HTML解析器（如BeautifulSoup）解析网页内容，提取所需数据。
数据存储： 将提取的数据存储到本地文件、数据库或其他存储介质中。

2. Python爬虫实践技巧

本节将深入探讨Python爬虫的实际应用，涵盖从HTTP/HTTPS协议到数据提取和处理的各个方面。

2.1 HTTP/HTTPS协议简介

HTTP（超文本传输协议）和HTTPS（安全超文本传输协议）是用于在Web浏览器和Web服务器之间传输数据的协议。

HTTP ：一种无状态、无连接的协议，用于在客户端和服务器之间传输数据。它使用明文传输数据，因此不安全。
HTTPS ：HTTP的安全版本，使用TLS/SSL加密数据传输。它比HTTP更安全，因为数据在传输过程中是加密的。

2.2 Python的requests库应用

requests库是Python中用于发送HTTP请求的流行库。它提供了一个简单易用的API，可以轻松地发送GET和POST请求。

2.2.1 GET和POST请求

GET请求 ：用于从服务器获取数据。数据作为URL查询字符串的一部分发送。
POST请求 ：用于向服务器发送数据。数据作为HTTP请求正文的一部分发送。

import requests

# GET请求
response = requests.get("https://www.example.com")

# POST请求
data = {"username": "admin", "password": "password"}
response = requests.post("https://www.example.com/login", data=data)

2.2.2 请求参数和响应处理

requests库允许设置各种请求参数，例如超时、重试和代理。它还提供了对响应内容的访问，包括状态代码、标头和正文。

# 设置超时
response = requests.get("https://www.example.com", timeout=5)

# 获取响应状态代码
status_code = response.status_code

# 获取响应标头
headers = response.headers

# 获取响应正文
content = response.content

2.3 BeautifulSoup库解析HTML

BeautifulSoup库是一个Python库，用于解析HTML和XML文档。它提供了一组选择器，可以轻松地从文档中提取数据。

2.3.1 HTML和DOM结构

HTML（超文本标记语言）是一种用于创建Web页面的标记语言。它使用一系列标记来定义文档的结构和内容。

DOM（文档对象模型）是HTML文档的树形表示。它允许脚本和程序访问和操作文档中的元素。

2.3.2 选择器（CSS选择器或XPath）

BeautifulSoup库支持CSS选择器和XPath表达式来选择HTML元素。

CSS选择器 ：类似于CSS样式表中使用的选择器，用于根据元素的名称、ID、类和属性选择元素。
XPath表达式 ：一种更强大的选择器语言，用于根据元素在文档中的位置和关系选择元素。

from bs4 import BeautifulSoup

# 使用CSS选择器
soup = BeautifulSoup(html_content, "html.parser")
title = soup.select("title")[0].text

# 使用XPath表达式
title = soup.xpath("//title/text()")[0]

2.4 数据提取和处理

一旦解析了HTML文档，就可以提取和处理所需的数据。

2.4.1 文本提取

BeautifulSoup库提供了多种方法来提取HTML元素中的文本内容。

# 获取元素文本
text = element.text

# 获取元素属性值
value = element.get("attribute_name")

2.4.2 属性提取

BeautifulSoup库还允许提取HTML元素的属性。

# 获取元素属性值
value = element.get("attribute_name")

# 获取所有元素属性
attrs = element.attrs

2.5 异常处理

在爬虫过程中，可能会遇到各种异常。requests和BeautifulSoup库提供了处理这些异常的方法。

2.5.1 常见错误类型

HTTPError ：HTTP请求失败时的错误。
URLError ：无法连接到URL时的错误。
ConnectionError ：无法建立连接时的错误。
TimeoutError ：请求超时时的错误。

2.5.2 错误处理策略

requests和BeautifulSoup库提供了处理异常的机制。

try:
    # 发送请求
    response = requests.get("https://www.example.com")
except requests.exceptions.RequestException as e:
    # 处理异常
    print(e)

try:
    # 解析HTML
    soup = BeautifulSoup(html_content, "html.parser")
except Exception as e:
    # 处理异常
    print(e)

3. 爬虫进阶应用

3.1 数据存储

3.1.1 文件存储

方式介绍

文件存储是一种简单、方便的数据存储方式。它将爬取到的数据保存到本地文件中，文件格式可以是文本、JSON、CSV 等。

优点

简单易用： 文件存储操作简单，无需复杂的数据库配置和管理。
低成本： 文件存储不需要额外的服务器或软件成本。
快速访问： 文件存储的数据可以直接通过文件系统访问，速度较快。

缺点

数据量限制： 文件存储的容量有限，不适合存储大量数据。
数据安全性： 文件存储的数据容易被篡改或丢失，安全性较差。
并发访问： 文件存储不支持并发访问，多个进程同时操作文件可能会导致数据损坏。

使用场景

文件存储适用于存储少量、非关键的数据，例如爬取到的新闻标题、商品名称等。

3.1.2 数据库存储

方式介绍

数据库存储是一种结构化、持久化的数据存储方式。它将爬取到的数据保存到数据库中，数据库可以是关系型数据库（如 MySQL、PostgreSQL）或非关系型数据库（如 MongoDB、Redis）。

优点

数据量大： 数据库可以存储海量数据，满足大规模爬虫的需求。
数据安全性： 数据库提供了完善的数据安全机制，如权限控制、数据加密等。
并发访问： 数据库支持并发访问，多个进程可以同时操作数据，保证数据的一致性。
数据查询： 数据库提供了强大的查询功能，可以快速高效地查询和检索数据。

缺点

复杂性： 数据库配置和管理相对复杂，需要一定的技术基础。
成本： 数据库服务器和软件需要额外的成本。
性能： 数据库的性能受硬件和配置的影响，可能存在性能瓶颈。

使用场景

数据库存储适用于存储大量、结构化、需要持久化和并发访问的数据，例如爬取到的用户数据、商品信息等。

3.2 限制与道德规范

3.2.1 爬虫礼仪

遵守网站规则

爬虫在抓取数据时，应遵守网站的规则和条款，避免过度抓取或恶意抓取，对网站造成影响。

限制抓取频率

爬虫应限制抓取频率，避免给网站服务器造成过大压力。一般情况下，抓取频率应根据网站的承受能力进行调整。

使用代理

爬虫应使用代理来隐藏自己的真实IP地址，避免被网站识别和封禁。

3.2.2 法律法规

尊重知识产权

爬虫在抓取数据时，应尊重知识产权法，避免抓取受版权保护的内容。

遵守数据保护法

爬虫在抓取个人数据时，应遵守数据保护法，保护个人隐私。

避免违法行为

爬虫不得用于非法目的，如窃取数据、破坏网站或传播恶意软件。

3.3 IP代理

3.3.1 IP代理的作用

隐藏真实IP

IP代理可以隐藏爬虫的真实IP地址，避免被网站识别和封禁。

绕过地域限制

IP代理可以绕过地域限制，抓取不同地区或国家的网站数据。

提高抓取效率

IP代理可以提高抓取效率，通过使用多个代理同时抓取，避免单一IP被封禁导致抓取中断。

3.3.2 代理类型和使用

代理类型

常用的代理类型包括：

HTTP代理： 用于HTTP协议的代理。
SOCKS代理： 用于TCP/IP协议的代理，支持更广泛的协议。
反向代理： 位于网站服务器前，将客户端请求转发到服务器。

代理使用

使用代理时，需要配置爬虫的代理设置，包括代理地址、端口和认证信息。

import requests

# 设置代理
proxies = {
    'http': 'http://127.0.0.1:8080',
    'https': 'https://127.0.0.1:8080'
}

# 使用代理发送请求
response = requests.get('https://www.example.com', proxies=proxies)

4. 爬虫实战案例

4.1 新闻爬虫

新闻爬虫是一种常见的爬虫类型，用于从新闻网站提取新闻文章。新闻爬虫通常需要完成以下两个主要任务：

4.1.1 新闻列表页爬取

新闻列表页通常包含新闻文章的标题、摘要和链接。爬取新闻列表页需要以下步骤：

获取新闻列表页 URL： 确定要爬取的新闻网站的新闻列表页 URL。
发送 HTTP 请求： 使用 Python 的 requests 库发送 GET 请求以获取新闻列表页的 HTML 内容。
解析 HTML 内容： 使用 BeautifulSoup 库解析 HTML 内容，提取新闻文章的标题、摘要和链接。
存储提取的数据： 将提取的数据存储到数据库或文件中。

import requests
from bs4 import BeautifulSoup

# 获取新闻列表页 URL
url = "https://www.example.com/news"

# 发送 HTTP 请求
response = requests.get(url)

# 解析 HTML 内容
soup = BeautifulSoup(response.text, "html.parser")

# 提取新闻文章信息
news_articles = []
for article in soup.find_all("article"):
    title = article.find("h2").text
    summary = article.find("p").text
    link = article.find("a")["href"]
    news_articles.append({"title": title, "summary": summary, "link": link})

# 存储提取的数据
import sqlite3

conn = sqlite3.connect("news.db")
cursor = conn.cursor()
cursor.execute("CREATE TABLE IF NOT EXISTS news (title TEXT, summary TEXT, link TEXT)")
for article in news_articles:
    cursor.execute("INSERT INTO news (title, summary, link) VALUES (?, ?, ?)", (article["title"], article["summary"], article["link"]))
conn.commit()
cursor.close()
conn.close()

4.1.2 新闻详情页爬取

新闻详情页包含新闻文章的完整内容。爬取新闻详情页需要以下步骤：

获取新闻详情页 URL： 从新闻列表页提取新闻文章的链接。
发送 HTTP 请求： 使用 requests 库发送 GET 请求以获取新闻详情页的 HTML 内容。
解析 HTML 内容： 使用 BeautifulSoup 库解析 HTML 内容，提取新闻文章的完整内容。
存储提取的数据： 将提取的数据存储到数据库或文件中。

import requests
from bs4 import BeautifulSoup

# 获取新闻详情页 URL
url = "https://www.example.com/news/article-1"

# 发送 HTTP 请求
response = requests.get(url)

# 解析 HTML 内容
soup = BeautifulSoup(response.text, "html.parser")

# 提取新闻文章内容
content = soup.find("div", {"class": "article-content"}).text

# 存储提取的数据
import sqlite3

conn = sqlite3.connect("news.db")
cursor = conn.cursor()
cursor.execute("CREATE TABLE IF NOT EXISTS news_content (article_id INTEGER, content TEXT, PRIMARY KEY (article_id))")
cursor.execute("INSERT INTO news_content (article_id, content) VALUES (?, ?)", (1, content))
conn.commit()
cursor.close()
conn.close()

5. 爬虫优化与扩展

5.1 爬虫性能优化

爬虫性能优化是指通过各种手段提升爬虫的效率和稳定性，使其能够更快速、更稳定地抓取数据。常见的爬虫性能优化技术包括：

5.1.1 并发爬取

并发爬取是指同时使用多个线程或进程来抓取数据，从而提高爬虫的效率。在 Python 中，可以使用 threading 或 multiprocessing 模块来实现并发爬取。

import threading

def crawl_page(url):
    # 爬取页面并解析数据

# 创建线程池
pool = ThreadPool(4)

# 创建任务队列
urls = ['url1', 'url2', 'url3', 'url4']

# 将任务添加到队列
for url in urls:
    pool.submit(crawl_page, url)

# 等待所有任务完成
pool.join()

5.1.2 缓存机制

缓存机制是指将已经抓取的数据存储在本地，当需要再次访问这些数据时，直接从本地缓存中读取，从而避免重复抓取。在 Python 中，可以使用 cachetools 模块来实现缓存机制。

from cachetools import TTLCache

# 创建缓存对象
cache = TTLCache(maxsize=100, ttl=600)

# 将数据存储到缓存中
cache['key'] = 'value'

# 从缓存中获取数据
value = cache.get('key')