Python 数据分析实战：在线教育行业发展研究

最新推荐文章于 2025-05-15 16:00:00 发布

萧十一郎@

最新推荐文章于 2025-05-15 16:00:00 发布

阅读量925

点赞数 24

分类专栏： python 文章标签： python 数据分析开发语言

本文链接：https://blog.csdn.net/daqsdfas/article/details/146450819

版权

3.3 数据分析 - 不同年龄段用户课程偏好分析

3.4 数据分析 - 课程评价与用户留存关系分析

一、案例背景

随着互联网技术的飞速发展，在线教育行业近年来呈现出爆发式增长。它打破了传统教育在时间和空间上的限制，为学习者提供了丰富多样的课程选择，满足了不同人群的学习需求。从 K12 教育到职业培训，从语言学习到兴趣爱好培养，在线教育覆盖了教育领域的各个细分市场。然而，行业在快速发展过程中也面临着诸多挑战，如竞争激烈、课程质量参差不齐、用户留存率低等问题。借助 Python 强大的数据处理和分析能力，对在线教育行业相关数据进行深入挖掘和分析，有助于企业精准把握市场趋势、优化课程产品、提升用户体验和运营效率，从而在激烈的市场竞争中脱颖而出。

二、代码实现

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import requests
from bs4 import BeautifulSoup

2.1 数据收集

数据来源广泛，涵盖行业研究报告网站（如艾瑞咨询、智研咨询）、在线教育平台用户行为数据、社交媒体上关于在线教育的讨论以及教育部门发布的相关统计数据。

从艾瑞咨询网站抓取在线教育市场规模数据：

url = 'https://www.iresearch.com.cn/report/online_education.html'
headers = {
    'User - Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
}
response = requests.get(url, headers = headers)
soup = BeautifulSoup(response.text, 'html.parser')
market_size_data = []
div = soup.find('div', class_='market - size - content')
items = div.find_all('li')
for item in items:
    year = item.find('span', class_='year - info').text.strip()
    market_size = float(item.find('span', class_='size - value').text.strip().replace('亿元', ''))
    market_size_data.append({'Year': year, 'Market_Size': market_size})
market_size_df = pd.DataFrame(market_size_data)

从某在线教育平台 API 获取用户行为数据（假设已获得合法的 API 访问权限）：

import json
api_url = 'https://api.onlineeducationplatform.com/user_behavior'
headers = {
    'Authorization': 'your_api_key',
    'Content - Type': 'application/json'
}
response = requests.get(api_url, headers = headers)
if response.status_code == 200:
    user_behavior_data = json.loads(response.text)
    user_behavior_df = pd.DataFrame(user_behavior_data)
else:
    print('Failed to get user behavior data')

2.2 数据探索性分析

# 查看市场规模数据基本信息
print(market_size_df.info())
# 查看用户行为数据基本信息
print(user_behavior_df.info())

# 分析在线教育市场规模随时间变化趋势
market_size_df['Year'] = pd.to_numeric(market_size_df['Year'])
plt.figure(figsize=(12, 6))
sns.lineplot(x='Year', y='Market_Size', data=market_size_df)
plt.title('Trend of Online Education Market Size')
plt.xlabel('Year')
plt.ylabel('Market Size (billion yuan)')
plt.show()

# 查看用户在不同课程类型上的学习时长分布
course_type_duration = user_behavior_df.groupby('Course_Type')['Study_Duration'].sum()
plt.figure(figsize=(10, 6))
sns.barplot(x=course_type_duration.index, y=course_type_duration.values)
plt.title('Distribution of User Study Duration by Course Type')
plt.xlabel('Course Type')
plt.ylabel('Total Study Duration (hours)')
plt.xticks(rotation=45)
plt.show()

2.3 数据清洗

# 市场规模数据清洗
# 检查并处理缺失值
market_size_df.dropna(inplace = True)
# 去除重复记录
market_size_df = market_size_df.drop_duplicates()

# 用户行为数据清洗
# 处理异常学习时长数据，如学习时长为负数等情况
user_behavior_df = user_behavior_df[user_behavior_df['Study_Duration'] >= 0]
# 处理异常用户操作数据，如不合理的点击次数等
user_behavior_df = user_behavior_df[(user_behavior_df['Click_Number'] >= 0) & (user_behavior_df['Click_Number'] <= 1000)]