豆瓣电影Python爬虫实战详解

土城三富

于 2024-08-27 15:55:39 发布

阅读量1.1k

点赞数 19

本文链接：https://blog.csdn.net/weixin_42300144/article/details/141635123

版权

本文还有配套的精品资源，点击获取 menu-r.4af5f7ec.gif

简介：Python爬虫是一种高效的数据采集工具，广泛应用于各种领域。本教程将深入探讨如何利用Python编写豆瓣电影的爬虫程序，带你走进Python爬虫的世界。通过了解Python爬虫的基本概念，分析豆瓣电影的网页结构，使用requests库获取网页内容，BeautifulSoup库解析HTML内容，分析网络请求获取动态数据，以及使用pandas库存储数据，你将掌握编写豆瓣电影Python爬虫的完整流程。

1. Python爬虫基本概念

Python爬虫是一种使用Python编程语言从互联网上获取数据的自动化工具。它可以模拟浏览器行为，发送请求并解析响应，从而获取网页内容和数据。

爬虫在以下场景中非常有用： - 数据收集：从网站中提取结构化数据，用于分析、研究或商业智能。 - 网页自动化：自动化执行重复性任务，例如表单提交、页面导航和数据输入。 - 监控和警报：定期检查网站是否存在变化或问题，并及时通知。

2.1 HTML和CSS基础

2.1.1 HTML元素和属性

HTML（超文本标记语言）是用于创建网页的标记语言。它使用一系列元素来定义网页的结构和内容，每个元素都有其特定的属性。

元素

HTML元素是网页构建块。它们用尖括号<>表示，例如 <p> 表示段落元素。不同的元素用于不同的目的，例如 <head> 元素包含网页的元数据， <body> 元素包含网页的可见内容。

属性

属性用于修改元素的外观和行为。它们以键值对的形式出现，例如 <p style="color: red;"> 表示一个红色段落。每个元素都有其支持的特定属性集。

2.1.2 CSS选择器和样式

CSS（层叠样式表）是一种用于定义网页外观的语言。它使用选择器来匹配HTML元素，并使用样式规则来指定这些元素的外观。

选择器

选择器用于指定要应用样式的HTML元素。它们可以根据元素的名称、ID、类名或其他属性进行匹配。例如， #header 选择器匹配具有ID为“header”的元素， .class 选择器匹配具有类名为“class”的元素。

样式规则

样式规则用于定义元素的外观。它们包括一系列属性和值，例如 color: red; 表示将元素的文本颜色设置为红色。多个样式规则可以应用于同一个元素，并且具有更高特异性的规则优先。

2.2 豆瓣电影网页结构

2.2.1 网页布局和导航

豆瓣电影网页采用常见的网格布局，分为头部、导航栏、主体内容区和底部。

头部： 包含网站logo、搜索框和用户登录信息。
导航栏： 提供对不同电影分类、排行榜和社区功能的访问。
主体内容区： 显示电影列表、电影详情、评论和推荐。
底部： 包含网站信息、版权声明和联系方式。

2.2.2 数据元素定位

豆瓣电影网页上的数据元素使用HTML元素和CSS类名进行组织。以下是一些常见的元素和类名：

电影列表： <div class="item">
电影标题： <a class="title">
电影评分： <span class="rating_num">
电影简介： <p class="bd">
电影详情页： <div class="grid-16-8 clearfix">

3. requests库获取网页内容

3.1 requests库简介

3.1.1 安装和使用

requests库是一个用于发送HTTP请求的Python库，可以方便地获取网页内容。要安装requests库，请使用以下命令：

pip install requests

安装完成后，可以通过以下代码导入requests库：

import requests

3.1.2 请求方法和参数

requests库提供了多种HTTP请求方法，包括GET、POST、PUT和DELETE。其中，GET方法用于获取资源，POST方法用于创建资源，PUT方法用于更新资源，DELETE方法用于删除资源。

每个HTTP请求方法都接受一系列参数，包括：

url ：请求的URL地址
params ：GET请求的参数，作为查询字符串附加到URL后面
data ：POST请求的表单数据，作为请求体发送
json ：POST请求的JSON数据，作为请求体发送
headers ：请求头信息，用于指定请求的附加信息，如用户代理和内容类型

3.2 获取豆瓣电影网页内容

3.2.1 发送GET请求

要获取豆瓣电影网页内容，可以使用requests库的 get() 方法。该方法接受一个URL地址作为参数，并返回一个 Response 对象，其中包含了请求的响应信息。

import requests

url = 'https://movie.douban.com/top250'
response = requests.get(url)

3.2.2 响应状态码和内容

Response 对象包含了请求的响应信息，包括响应状态码和响应内容。响应状态码表示请求是否成功，常见的响应状态码有：

200：请求成功
404：请求的资源不存在
500：服务器内部错误

响应内容是请求的实际内容，可以通过 content 属性获取。响应内容通常是HTML、JSON或XML格式。

# 获取响应状态码
status_code = response.status_code

# 获取响应内容
content = response.content

4. BeautifulSoup库解析HTML内容

4.1 BeautifulSoup库简介

4.1.1 安装和使用

BeautifulSoup是一个Python库，用于解析HTML和XML文档。它提供了一组简单易用的方法来查找、导航和修改HTML文档。

要安装BeautifulSoup，请使用以下命令：

pip install beautifulsoup4

导入BeautifulSoup库：

from bs4 import BeautifulSoup

4.1.2 解析HTML文档

BeautifulSoup可以通过 BeautifulSoup() 函数解析HTML文档。该函数接受一个HTML字符串或文件对象作为参数，并返回一个 BeautifulSoup 对象。

html_doc = """
<html>
<head>
<title>豆瓣电影</title>
</head>
<body>
<h1>电影列表</h1>
<ul>
<li><a href="/movie/1291549/">肖申克的救赎</a></li>
<li><a href="/movie/1292052/">霸王别姬</a></li>
</ul>
</body>
</html>

soup = BeautifulSoup(html_doc, 'html.parser')

解析后， soup 对象表示整个HTML文档。我们可以使用BeautifulSoup提供的各种方法来查找、导航和修改文档。

4.2 解析豆瓣电影网页内容

4.2.1 查找元素和提取数据

要查找HTML文档中的元素，可以使用 find() 和 find_all() 方法。这些方法接受一个CSS选择器作为参数，并返回第一个匹配的元素或所有匹配的元素。

例如，要查找豆瓣电影网页中标题为“电影列表”的 <h1> 元素：

h1_element = soup.find('h1')
print(h1_element.text)  # 输出：电影列表

要查找所有 <li> 元素：

li_elements = soup.find_all('li')
for li in li_elements:
    print(li.text)  # 输出：肖申克的救赎、霸王别姬

4.2.2 处理嵌套结构和列表

HTML文档通常包含嵌套结构和列表。BeautifulSoup提供了各种方法来处理这些结构。

例如，要获取 <li> 元素中 <a> 元素的链接：

for li in li_elements:
    a_element = li.find('a')
    print(a_element['href'])  # 输出：/movie/1291549/、/movie/1292052/

要获取 <ul> 元素中所有 <li> 元素的文本：

ul_element = soup.find('ul')
li_texts = [li.text for li in ul_element.find_all('li')]
print(li_texts)  # 输出：['肖申克的救赎', '霸王别姬']

通过使用BeautifulSoup库，我们可以轻松地解析和处理HTML文档，从而提取所需的数据。

5. 分析网络请求获取动态数据

5.1 HTTP协议基础

5.1.1 请求和响应结构

HTTP（超文本传输协议）是互联网上应用最广泛的协议，用于在客户端（如浏览器）和服务器之间传输数据。HTTP请求和响应遵循特定的结构：

请求结构：

请求行
请求头
请求体（可选）

请求行： 指定请求方法、请求资源和HTTP版本。

请求头： 包含有关请求的其他信息，例如：

User-Agent：客户端的标识信息
Accept：客户端可以接受的响应类型
Content-Type：请求体的数据类型

请求体： 包含发送给服务器的数据，通常用于POST请求。

响应结构：

状态行
响应头
响应体

状态行： 指定HTTP状态码和状态消息。

响应头： 包含有关响应的其他信息，例如：

Content-Type：响应体的数据类型
Content-Length：响应体的大小

响应体： 包含服务器返回给客户端的数据。

5.1.2 HTTP状态码

HTTP状态码表示服务器对请求的响应状态。常见的状态码包括：

200 OK：请求成功
404 Not Found：请求的资源不存在
500 Internal Server Error：服务器内部错误

5.2 分析豆瓣电影动态数据请求

5.2.1 抓包工具的使用

抓包工具可以拦截和分析网络请求和响应。常用的抓包工具包括：

Fiddler
Wireshark
Charles

5.2.2 分析请求参数和响应数据

使用抓包工具，我们可以分析豆瓣电影动态数据请求的参数和响应数据。

请求参数：

URL：请求的资源地址
Method：请求方法（GET/POST）
Headers：请求头信息
Body：请求体数据（POST请求）

响应数据：

Status Code：HTTP状态码
Headers：响应头信息
Body：响应体数据

通过分析这些信息，我们可以了解豆瓣电影动态数据请求的具体内容和服务器的响应。

示例：

使用Fiddler抓取豆瓣电影搜索请求，得到以下信息：

请求行：GET https://movie.douban.com/j/search_subjects?type=movie&tag=热门&sort=recommend&page_limit=20&page_start=0 HTTP/1.1
请求头：
User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36
Accept: */*
Accept-Language: zh-CN,zh;q=0.9
响应状态行：HTTP/1.1 200 OK
响应头：
Content-Type: application/json; charset=UTF-8
Content-Length: 16384

通过分析请求行，我们可以看到请求的URL、方法和参数。通过分析响应头，我们可以看到响应的数据类型和长度。

6. pandas库存储数据

6.1 pandas库简介

6.1.1 安装和使用

要安装pandas库，请使用以下命令：

pip install pandas

安装后，可以通过以下方式导入pandas：

import pandas as pd

6.1.2 数据结构和操作

pandas库提供了两种主要数据结构：

Series： 一维数组，类似于NumPy数组，但具有索引。
DataFrame： 二维表状结构，具有行和列索引。

pandas提供了一系列操作数据的方法，包括：

数据选择： 使用索引或布尔条件选择数据。
数据操作： 执行算术运算、聚合函数和字符串操作。
数据清洗： 处理缺失值、重复值和数据类型转换。

6.2 存储豆瓣电影数据

6.2.1 创建DataFrame

从豆瓣电影网页提取的数据可以存储在pandas DataFrame中。以下代码示例演示如何创建DataFrame：

import pandas as pd

# 创建一个DataFrame，列名与豆瓣电影数据字段对应
df = pd.DataFrame({
    "电影名称": movie_titles,
    "评分": movie_ratings,
    "上映年份": movie_years,
    "导演": movie_directors,
    "主演": movie_casts
})

6.2.2 数据清洗和处理

在存储数据之前，可能需要进行一些数据清洗和处理操作：

处理缺失值： 使用 fillna() 方法填充缺失值，或删除缺失值行。
处理重复值： 使用 drop_duplicates() 方法删除重复行。
转换数据类型： 使用 astype() 方法将数据转换为所需的类型，例如将评分转换为浮点数。

以下代码示例演示如何处理缺失值：

# 填充缺失的评分值
df["评分"].fillna(0, inplace=True)

以下代码示例演示如何删除重复行：

# 删除重复行
df = df.drop_duplicates()

以下代码示例演示如何转换数据类型：

# 将评分转换为浮点数
df["评分"] = df["评分"].astype(float)

经过数据清洗和处理后，就可以将数据存储到文件中或数据库中。

7. 反爬虫策略和爬虫伦理

7.1 反爬虫策略

反爬虫策略是网站为了防止爬虫抓取其内容而采取的一系列措施。常见的反爬虫策略包括：

7.1.1 用户代理和IP代理

用户代理是客户端向服务器发送请求时携带的信息，用于标识客户端的类型和版本。网站可以根据用户代理来判断请求是否来自爬虫。IP代理是一种代理服务器，可以将爬虫的真实IP地址隐藏起来，使其看起来像来自不同的IP地址。

7.1.2 验证机制和验证码

验证机制是网站用来验证用户身份的一种方法，例如验证码。验证码是一种扭曲或模糊的图像，里面包含一些字符，用户需要输入这些字符才能继续操作。验证码可以有效地防止自动化爬虫抓取内容。

7.2 爬虫伦理

爬虫伦理是指爬虫开发者在抓取网站内容时应遵循的道德准则。常见的爬虫伦理包括：

7.2.1 遵守网站规则

爬虫开发者应遵守网站的爬虫协议，例如限制请求频率、避免抓取敏感数据等。

7.2.2 避免过度抓取

爬虫开发者应避免过度抓取网站内容，以免对网站造成过大的负担。

本文还有配套的精品资源，点击获取 menu-r.4af5f7ec.gif

土城三富

关注

19
点赞
踩
22

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫