「Python魔法药剂：列表推导式的秘密配方大公开！」(二)-CSDN博客

本文链接：https://blog.csdn.net/bsxbw427/article/details/139309869

嗨，我是阿佑，上一篇给大家讲了《Python魔法药剂——列表推导式 (一)》，今天给大家解锁剩下的全部内容！
在Python编程的世界中，列表推导式就是那个能让你脱颖而出的秘籍。但如何掌握它，如何运用它解决实际问题？今天阿佑将为你揭晓答案。阿佑将带你一步步深入了解列表推导式的高级用法，并精心设计了一系列最为经典的实战案例，展示如何运用列表推导式解决复杂问题。跟随我们，发现成为编程高手的秘密吧！

文章目录

在这里插入图片描述

6. 实战案例分析

6.1 数据处理与清洗

在Python的编程世界里，数据处理与清洗就像是烹饪一道美味的大餐。你需要挑选新鲜的食材，去除不需要的部分，然后才能烹饪出令人垂涎的佳肴。列表推导式在这里就像是一把锋利的厨刀，帮你快速处理数据。

想象一下，你是一位大厨，面对一堆杂乱的食材清单，需要快速挑选出所有的蔬菜：

ingredients = ['apple', 'chicken', 'carrot', 'beef', 'broccoli', 'fish', 'tomato']
vegetables = [item for item in ingredients if 'meat' not in item.lower()]

念完咒语后，vegetables 就会变成 ['apple', 'carrot', 'broccoli', 'tomato']，所有的肉类都被剔除了，只留下了蔬菜。

6.2 算术与逻辑运算

在数学的世界里，算术与逻辑运算就像是解决谜题。列表推导式在这里就像是一把万能钥匙，帮你解开一个又一个的数学谜题。

比如，你是一位侦探，需要找出所有能被3和5同时整除的数字（也就是15的倍数）：

numbers = range(1, 101)  # 从1到100的数字
lucky_numbers = [num for num in numbers if num % 3 == 0 and num % 5 == 0]

在这个例子中，lucky_numbers 将会是 [15, 30, 45, 60, 75, 90]，所有符合条件的数字都被找出来了。

6.3 与函数式编程结合

函数式编程就像是在编程世界中的一场音乐会，每个函数都是一个音符，组合起来就能演奏出美妙的乐章。列表推导式在这里就像是指挥家，协调各个音符，让它们和谐地演奏。

想象一下，你是一位指挥家，需要将一系列数字转换为它们的平方，并且只保留偶数：

numbers = [1, 2, 3, 4, 5]
squared_evens = list(filter(lambda x: x % 2 == 0, map(lambda x: x ** 2, numbers)))

在这个例子中，squared_evens 将会是 [4, 16]，先通过map()将每个数字平方，然后通过filter()筛选出偶数。

在这一节中，我们通过三个实际的编程案例，展示了列表推导式在数据处理与清洗、算术与逻辑运算、以及与函数式编程结合时的强大能力。这些例子就像是编程世界中的小故事，每个故事都展示了列表推导式的一个独特用途。

就像在现实生活中，每个工具都有它的用途和时机，列表推导式也是如此。通过这些实战案例，我们可以更好地理解何时以及如何使用列表推导式，让我们的编程之旅更加高效和有趣。准备好了吗？让我们继续前进，探索更多编程的奇妙之处！

7. 实战案例：社交媒体数据分析

背景介绍

假设你是一家社交媒体公司的数据分析员，你的任务是分析用户在平台上的活动数据，以识别活跃用户和热门话题。数据集包含用户ID、发帖时间、帖子内容和帖子类型等字段。

数据集概览

数据集（social_media_data.csv）包含以下字段：

user_id: 用户的唯一标识符
timestamp: 帖子发布的时间戳
content: 帖子的文本内容
post_type: 帖子类型（如文本、图片、视频等）

目标

识别出发帖量最多的前10名用户。
找出被标记为“热门”的帖子中最常见的话题。

数据预处理

首先，我们需要导入必要的库，并加载数据集。

import pandas as pd

# 加载数据集
data = pd.read_csv('social_media_data.csv')

任务1：识别活跃用户

为了找出发帖量最多的用户，我们可以使用列表推导式结合pandas库的value_counts方法。

# 计算每个用户的发帖数量
post_counts = data['user_id'].value_counts()

# 识别发帖量最多的前10名用户
top_users = post_counts.head(10).index.tolist()
print("Top 10 active users:", top_users)

任务2：热门话题分析

接下来，我们要分析被标记为“热门”的帖子中最常见的话题。首先，我们需要筛选出“热门”帖子，然后提取话题标签。

# 筛选出热门帖子
hot_posts = data[data['post_type'] == '热门']

# 假设帖子内容中包含以'#'开头的话题标签
# 使用列表推导式提取所有话题标签
topics = [word[1:] for word in hot_posts['content'].str.findall(r'#\w+')]

# 将提取的话题转换为pandas Series，并计算每个话题的出现次数
topic_counts = pd.Series(topics).value_counts()

# 找出最常见的话题
common_topics = topic_counts.head(10).index.tolist()
print("Most common topics in popular posts:", common_topics)

深入分析

为了进一步分析，我们可以探索不同类型帖子的分布情况，以及用户活跃时间的模式。

# 不同类型帖子的数量
post_type_counts = data['post_type'].value_counts()
print("Post type distribution:\n", post_type_counts)

# 用户活跃时间分析
# 假设timestamp是字符串格式，需要转换为datetime
data['timestamp'] = pd.to_datetime(data['timestamp'])

# 提取小时部分
data['hour'] = data['timestamp'].dt.hour

# 分析每小时的用户活跃度
hourly_activity = data['user_id'].groupby(data['hour']).count()
print("User activity by hour:\n", hourly_activity)

结果可视化

为了更直观地展示分析结果，我们可以使用图表来可视化数据。

import matplotlib.pyplot as plt

# 活跃用户图表
top_users.plot(kind='bar')
plt.title('Top 10 Active Users')
plt.xlabel('User ID')
plt.ylabel('Number of Posts')
plt.show()

# 热门话题图表
topic_counts.head(10).plot(kind='pie', autopct='%1.1f%%')
plt.title('Most Common Topics in Popular Posts')
plt.ylabel('')  # 隐藏y轴标签
plt.show()

# 用户活跃时间图表
hourly_activity.plot(kind='line', marker='o')
plt.title('User Activity by Hour')
plt.xlabel('Hour of the Day')
plt.ylabel('Number of Posts')
plt.show()

通过上述分析，我们不仅识别出了社交媒体平台上的活跃用户和热门话题，还对帖子类型分布和用户活跃时间有了深入的了解。这些信息对于优化平台功能、提高用户参与度和制定内容策略至关重要。

阿佑友情提示：这个案例是一个简化的示例，旨在展示如何使用列表推导式进行数据分析。在实际应用中，数据分析任务可能会更加复杂，需要更多的数据清洗、特征工程和统计分析步骤。此外，实际的代码实现可能需要考虑性能优化和错误处理等问题。

在这里插入图片描述

8. 实战案例：电子商务网站销售数据分析

背景介绍

你是一家快速发展的电子商务公司的数据分析团队的一员。公司想要更好地了解其销售数据，以便优化库存管理、促销活动和客户满意度。你将使用Python和列表推导式来分析销售数据集。

数据集概览

数据集（ecommerce_sales.csv）包含以下字段：

order_id: 订单的唯一标识符
customer_id: 客户的唯一标识符
product_id: 产品的唯一标识符
quantity: 订单中产品的购买数量
price: 产品的单价
order_date: 订单的日期

目标

计算总销售额。
识别最畅销的产品。
分析不同客户群体的购买行为。
确定哪些时间段的销售额最高。

数据预处理

首先，导入必要的库并加载数据集。

import pandas as pd

# 加载数据集
data = pd.read_csv('ecommerce_sales.csv')

任务1：计算总销售额

使用列表推导式计算所有订单的总销售额。

# 计算总销售额
total_sales = sum([price * quantity for _, price, quantity in zip(data['order_id'], data['price'], data['quantity'])])
print(f"Total Sales: ${total_sales}")

任务2：识别最畅销的产品

找出销售数量最多的产品。

# 计算每个产品的总销量
product_sales = data.groupby('product_id')['quantity'].sum()

# 识别最畅销的产品
best_selling_product = product_sales.idxmax()
print(f"Best Selling Product: {best_selling_product}")

任务3：分析不同客户群体的购买行为

分析不同客户群体的购买力。

# 计算每个客户的总花费
customer_spending = data.groupby('customer_id')['price'].sum()

# 分析客户购买力
customer_segments = customer_spending.apply(lambda x: 'High' if x > 1000 else 'Medium' if x > 500 else 'Low')
print(customer_segments.value_counts())

任务4：确定销售额最高的时间段

分析不同时间段的销售额。

# 将订单日期转换为月份
data['order_month'] = pd.to_datetime(data['order_date']).dt.to_period('M')

# 计算每个月的销售额
monthly_sales = data.groupby('order_month')['price'].sum()

# 确定销售额最高的月份
best_month = monthly_sales.idxmax()
print(f"Best Sales Month: {best_month}")

深入分析

进一步分析产品类别和促销活动对销售的影响。

# 假设产品ID包含类别信息
data['product_category'] = data['product_id'].str[0]

# 分析不同类别的销售情况
category_sales = data.groupby('product_category')['price'].sum()
print(category_sales)

# 分析促销活动的影响
promotions = data[data['order_id'].str.contains('PROMO')]
promotion_sales = promotions.groupby('order_month')['price'].sum()
print(promotion_sales)

结果可视化

使用图表来直观展示分析结果。

import matplotlib.pyplot as plt

# 总销售额图表
plt.figure(figsize=(10, 6))
plt.bar(monthly_sales.index, monthly_sales.values)
plt.title('Monthly Sales')
plt.xlabel('Month')
plt.ylabel('Sales')
plt.show()

# 产品类别销售图表
plt.figure(figsize=(10, 6))
category_sales.plot(kind='pie', autopct='%1.1f%%')
plt.title('Sales by Product Category')
plt.ylabel('')  # 隐藏y轴标签
plt.show()

通过使用列表推导式和Python数据分析工具，我们对电子商务网站的销售数据进行了深入的分析。我们不仅识别了最畅销的产品和销售额最高的时间段，还分析了不同客户群体的购买行为和促销活动的影响。这些分析结果将帮助公司做出更明智的商业决策，优化库存管理，提高客户满意度，并增加销售收入。

阿佑友情提醒：这个案例是一个概述，旨在展示如何使用列表推导式进行数据分析。在实际应用中，数据分析任务可能会更加复杂，需要更多的数据清洗、特征工程和统计分析步骤。此外，实际的代码实现可能需要考虑性能优化和错误处理等问题。

由于篇幅限制，我将分批次提供这个实战案例的详细步骤和分析。以下是第一部分的详细描述：

9. 实战案例：电商平台用户行为分析

背景介绍

在这个数字化时代，电商平台每天都在产生海量的用户行为数据。这些数据包含了用户与平台交互的丰富信息，如浏览、搜索、购买等行为。作为数据分析师，我们的任务是挖掘这些数据中的潜在价值，帮助公司更好地理解用户需求，优化产品推荐系统，提升用户体验，并最终增加销售额。

数据集理解

我们的数据集user_behavior.csv记录了用户在平台上的行为事件。每一行代表一个单独的用户行为，包含以下字段：

user_id: 用户的唯一标识符。
session_id: 用户会话的唯一标识符。
product_id: 用户交互的产品的唯一标识符。
action_type: 用户对产品执行的操作类型，包括“浏览”、“加入购物车”、“购买”等。
timestamp: 用户行为发生的时间戳。

数据预处理

在开始深入分析之前，我们需要对数据进行预处理，以确保数据的质量和分析的准确性。

import pandas as pd

# 加载数据集
data = pd.read_csv('user_behavior.csv')

# 检查数据集的前几行
print(data.head())

# 检查数据集的信息
print(data.info())

# 处理缺失值
data = data.dropna()

# 将时间戳转换为日期和时间格式
data['timestamp'] = pd.to_datetime(data['timestamp'])

# 检查数据集中的重复记录
print(data.duplicated().sum())

# 如果存在重复记录，需要进行去重处理
data = data.drop_duplicates()

探索性数据分析（EDA）

在进行深入分析之前，我们先进行一些探索性数据分析，以了解数据的基本特征和分布情况。

# 统计各类用户行为的数量
action_counts = data['action_type'].value_counts()
print(action_counts)

# 分析用户活跃度，即每个用户的会话数量
user_sessions = data.groupby('user_id')['session_id'].nunique()
print(user_sessions.describe())

# 分析产品受欢迎程度，即每个产品的浏览次数
product_popularity = data.groupby('product_id')['action_type'].count()
print(product_popularity.sort_values(ascending=False).head(10))

识别最受欢迎的产品

接下来，我们将使用列表推导式来识别最受欢迎的产品。这里，我们关注的是“购买”行为，因为购买是转化率最高的用户行为。

# 筛选出购买行为
purchases = data[data['action_type'] == 'purchase']

# 使用列表推导式计算每个产品的购买次数
product_purchase_counts = [(action, count) for action, count in purchases.groupby('product_id').size().items()]
print(product_purchase_counts)

# 找出购买次数最多的产品
most_popular_product = max(product_purchase_counts, key=lambda x: x[1])
print(f"最受欢迎的产品是：{most_popular_product[0]}，购买次数为：{most_popular_product[1]}")

用户行为序列分析

为了更好地理解用户的购买路径，我们需要分析用户在购买前的行为序列。

# 定义一个函数来提取用户的行为序列
def get_user_actions(user_id, action_type):
    return list(data[(data['user_id'] == user_id) & (data['action_type'] == action_type)]['product_id'])

# 获取所有用户的购买前行为序列
user_action_sequences = {user_id: get_user_actions(user_id, 'view') for user_id in data['user_id'].unique()}

# 例如，查看一个用户的购买前行为序列
sample_user_id = data['user_id'].unique()[0]
print(f"用户 {sample_user_id} 的购买前行为序列：{user_action_sequences[sample_user_id]}")

截至至此，阿佑和大家一块完成了数据的预处理和探索性数据分析，并使用列表推导式识别了最受欢迎的产品。我们还开始了用户行为序列的分析，这将帮助我们理解用户在购买前的交互模式。

接下来，阿佑将和大家一块继续深入分析用户行为，探索不同用户群体的购买行为差异，并尝试预测潜在的热门产品。我们还将使用可视化工具来展示我们的分析结果，使发现更加直观和易于理解。

在这里插入图片描述

预测潜在的热门产品

在上一部分中，我们识别了最受欢迎的产品。现在，我们将尝试预测可能成为热门的产品。为此，我们将分析用户将产品“加入购物车”的行为，因为这是购买行为的前奏。

# 筛选出加入购物车的行为
cart_actions = data[data['action_type'] == 'add_to_cart']

# 使用列表推导式计算每个产品被加入购物车的次数
product_cart_counts = [(product_id, count) for product_id, count in cart_actions.groupby('product_id').size().items()]

# 找出加入购物车次数最多的产品
most_added_product = max(product_cart_counts, key=lambda x: x[1])
print(f"加入购物车次数最多的产品是：{most_added_product[0]}，次数为：{most_added_product[1]}")

用户分群分析

为了更好地理解不同用户群体的购买行为，我们将用户按照购买频率进行分群。

# 计算每个用户的购买次数
user_purchase_counts = data[data['action_type'] == 'purchase'].groupby('user_id').size()

# 根据购买次数将用户分为三群：频繁购买者、偶尔购买者和首次购买者
user_segments = user_purchase_counts.apply(lambda x: 'Frequent' if x > 5 else 'Occasional' if x > 1 else 'First-Time')
print(user_segments.value_counts())

时间序列分析

接下来，我们将分析销售数据的时间序列，以确定哪些时间段的销售额最高。

# 将时间戳转换为月份
data['order_month'] = data['timestamp'].dt.to_period('M')

# 计算每个月的总销售额
monthly_revenue = data[data['action_type'] == 'purchase'].groupby('order_month')['price'].sum()

# 找出销售额最高的月份
best_month_revenue = monthly_revenue.idxmax()
print(f"销售额最高的月份是：{best_month_revenue}")

产品类别分析

我们将进一步分析不同产品类别的表现。

# 假设product_id的前两位代表产品类别
data['product_category'] = data['product_id'].str[:2]

# 计算每个产品类别的总销售额
category_revenue = data[data['action_type'] == 'purchase'].groupby('product_category')['price'].sum()

# 找出最赚钱的产品类别
top_earning_category = category_revenue.idxmax()
print(f"最赚钱的产品类别是：{top_earning_category}")

可视化分析结果

为了更直观地展示分析结果，我们将使用图表来可视化关键指标。

import matplotlib.pyplot as plt

# 绘制每月销售额的图表
plt.figure(figsize=(12, 6))
plt.plot(monthly_revenue.index, monthly_revenue.values, marker='o')
plt.title('Monthly Revenue')
plt.xlabel('Month')
plt.ylabel('Revenue')
plt.grid(True)
plt.show()

# 绘制产品类别销售额的饼图
plt.figure(figsize=(10, 8))
category_revenue.plot(kind='pie', autopct='%1.1f%%')
plt.title('Revenue by Product Category')
plt.ylabel('')  # 隐藏y轴标签
plt.show()