Python数据分析-Netflix数据分析和可视化

最新推荐文章于 2025-01-06 16:04:29 发布

statistican_ABin

最新推荐文章于 2025-01-06 16:04:29 发布

阅读量1.8k

点赞数 40

分类专栏： python数据分析案例文章标签： python 数据分析开发语言

本文链接：https://blog.csdn.net/m0_62638421/article/details/143458364

版权

python数据分析案例专栏收录该内容

69 篇文章

订阅专栏

一、研究背景

在当今时代，流媒体技术迅猛发展，如风暴般席卷全球娱乐产业，重塑了大众的娱乐消费模式。Netflix 在这一潮流中一马当先，成为全球首屈一指的在线流媒体平台。自 2007 年开启流媒体服务后，Netflix 就马不停蹄地拓展内容库。其内容包罗万象，无论是紧张刺激的动作片、温馨感人的情感剧，还是充满奇幻色彩的科幻作品，都应有尽有。这一切都是为了匹配用户数量的快速增长，满足他们愈发多样和个性化的观看需求。如今，Netflix 订阅用户已超 2 亿，这一庞大数字凸显出优化内容获取与制作策略的紧迫性，它是 Netflix 继续领航的关键。

研究 Netflix 内容相关的各个方面，对于洞察现代消费者的娱乐偏好意义非凡。以 2008 - 2021 年 Netflix 新增内容数据为切入点，就像握住了理解流媒体行业发展的钥匙。这些数据能清晰展现行业发展脉络，比如从早期某类小众题材的尝试到后期成为流行趋势。同时，用户喜好的变化也一目了然，如对某种类型影片的热衷程度变化。而 Netflix 在竞争中找准自身定位的过程，也能从中洞察，为整个行业发展提供宝贵借鉴。

二、研究意义

本研究的意义体现在以下几个方面：

市场洞察：通过对Netflix内容的深入分析，可以揭示观众偏好的变化。这不仅能帮助流媒体平台识别哪些内容类型最受欢迎，还能揭示不同用户群体的特定需求。通过理解这些动态，流媒体平台及相关内容制作公司能够制定更具针对性的内容策略，以吸引和保持用户，最终推动订阅增长。
内容优化：分析不同类型内容的发布频率及受欢迎程度，为内容采购和制作决策提供数据支持。这种数据驱动的方法可以帮助平台优化其内容库，确保在提供热门内容的同时，保持多样性，以满足不同观众的偏好。例如，若某种类型的节目受到用户热捧，平台可以考虑增加该类型的制作预算或引进更多相关内容。
行业趋势：研究Netflix内容发布的趋势可以帮助理解流媒体行业的未来走向。通过分析不同类型内容的流行时间点和发布频率，行业参与者可以识别市场上潜在的机会和威胁。这种分析能够为内容策略的调整、市场扩展计划及竞争对手分析提供基础数据支持。
消费者行为：了解用户的观看习惯和内容偏好，对于提升用户体验、增加用户黏性具有重要作用。随着用户对个性化和定制化内容需求的上升，流媒体平台可以利用这些见解来改进推荐算法，提供更加精准的内容推送，提升用户满意度。此外，通过了解用户行为，平台还可以实施更有效的营销策略，吸引新用户并维持现有用户的活跃度。
竞争策略：流媒体市场竞争日益激烈，本研究可为Netflix在与其他平台的竞争中提供战略性见解。通过对内容发布趋势和用户偏好的分析，Netflix能够制定更灵活的市场进入和扩展策略，增强在内容获取和制作上的优势，从而保持市场领导地位。
内容创新：通过分析成功作品的共同特征，研究能够为内容制作提供灵感，促使创新和实验。了解观众偏好的变化能够激励创作者在剧本、导演风格及制作手法等方面进行创新，从而推出更具吸引力的原创内容。

三、实证分析

代码和数据集

Netflix 是一种流行的流媒体服务，提供大量电影、电视节目和原创内容。此数据集是原始版本的清理版本，可在此处找到。该数据包括 2008 年至 2021 年添加到 Netflix 的内容。最古老的内容可以追溯到 1925 年，最新的可以追溯到 2021 年。

导入数据分析包和读取数据

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
plt.rcParams['font.sans-serif'] = ['KaiTi']  #中文
plt.rcParams['axes.unicode_minus'] = False   #负号
import seaborn as sns
from wordcloud import WordCloud

import warnings
warnings.filterwarnings('ignore')

读取数据集，查看前五行

data = pd.read_csv('netflix1.csv')
data.head()

查看数据集结构

查看数据集形状

num_rows, num_cols = data.shape
print("Shape of the Data:")
print(f"Number of Rows: {num_rows}")
print(f"Number of Columns: {num_cols}\n")

数据清洗
识别和处理缺失数据、更正数据类型并删除重复项。

# 将 'date_added' 转换为日期时间
data['date_added'] = pd.to_datetime(data['date_added'])

查看数据集类型

探索性数据分析（EDA）
内容类型分发（电影与电视节目）
统计电影和电视节目的数量

type_counts = data['type'].value_counts()
# 设置图形质量参数以提高清晰度
plt.rcParams['savefig.dpi'] = 400
plt.rcParams['figure.dpi'] = 400
plt.rcParams['agg.path.chunksize'] = 10000
plt.figure(figsize=(20, 8),dpi=200)
# 第一个子图：柱状图
plt.subplot(1, 2, 1)
sns.barplot(x=type_counts.index, y=type_counts.values, palette='Set2')
plt.title('内容类型分布', fontsize=25)
plt.xlabel('类型', fontsize=20)
plt.ylabel('数量', fontsize=20)
# 第二个子图：饼图
plt.subplot(1, 2, 2)
plt.pie(type_counts, labels=type_counts.index, autopct='%.0f%%', colors=sns.color_palette('Set2'))
plt.title('内容类型百分比分布', fontsize=25)
plt.show()

分级频率（电影与电视节目）

plt.figure(figsize=(20, 8))
# 第一个子图：柱状图
plt.subplot(1, 2, 1)
sns.barplot(x='rating', y='count', data=ratings, palette='plasma')
plt.xticks(rotation=45, ha='right', fontsize=16)
plt.xlabel("评价类型", fontsize=20)
plt.ylabel("评价频率", fontsize=20)
plt.title('评价分布', fontsize=25)
plt.grid(True, which='both', linestyle='--', linewidth=0.3)
# 第二个子图：饼图
plt.subplot(1, 2, 2)
plt.pie(ratings['count'][:8], labels=ratings['rating'][:8], autopct='%.0f%%', colors=sns.color_palette('plasma'))
plt.title('评价百分比分布', fontsize=25)
plt.show()

内容最多的 10 个国家

头衔最多的前 15 名导演

# 绘制图形
    plt.figure(figsize=(20, 8))
    sns.barplot(y='director', x='count', data=top_directors, palette='plasma')
    plt.title('拥有最多作品的前 15 位导演', fontsize=25)
    plt.xlabel('作品数量', fontsize=20)
    plt.ylabel('导演', fontsize=20)
    plt.xticks(rotation=45, ha='right', fontsize=22)  # 增大 x 轴字体大小
# 增大 y 轴字体大小
    plt.yticks(fontsize=22)
    plt.grid(True, which='both', linestyle='--', linewidth=0.3)
    plt.show()
except KeyError as e:
    print(f"数据框中没有名为 '{e.args[0]}' 的列。")

十大流行电影类型

popular_movie_genre = data[data['type'] == 'Movie'].groupby("listed_in").size().sort_values(ascending=False)[:10]
popular_series_genre = data[data['type'] == 'TV Show'].groupby("listed_in").size().sort_values(ascending=False)[:10]
plt.figure(figsize=(20, 8))
sns.barplot(x=popular_movie_genre.index, y=popular_movie_genre.values, palette='Blues_d')
plt.xticks(rotation=45, ha='right', fontsize=16)
plt.xlabel("电影类型", fontsize=20)
plt.ylabel("电影数量", fontsize=20)
plt.suptitle("电影最受欢迎的十大类型", fontsize=25)
plt.xticks(rotation=45, ha='right', fontsize=22)  # 增大 x 轴字体大小
# 增大 y 轴字体大小
plt.yticks(fontsize=22)
plt.show()

前 10 名电视节目类型

电影和电视节目的每月发布

plt.figure(figsize=(20, 8))
data.groupby(['month_added', 'type']).size().unstack().plot(kind='line', marker='o', ax=plt.gca())
plt.title('每月电影和电视剧发布情况', fontsize=25)
plt.xlabel('月份', fontsize=20)
plt.ylabel('数量', fontsize=20)
plt.xticks(fontsize=20)
plt.xticks(fontsize=20)
plt.legend(title='类型', fontsize=20)
plt.grid(True)
plt.show()

电影和电视节目的年度发行

plt.figure(figsize=(20, 8))
data.groupby(['year_added', 'type']).size().unstack().plot(kind='line', marker='o', ax=plt.gca())
plt.title('电影和电视剧的年度发布情况', fontsize=25)
plt.xlabel('年份', fontsize=20)
plt.ylabel('数量', fontsize=20)
plt.xticks(fontsize=20)
plt.xticks(fontsize=20)
plt.legend(title='类型', fontsize=20)
plt.grid(True)
plt.show()

电影标题的词云图

plt.figure(figsize=(20, 10))
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis('off')
plt.title('电影标题词云', fontsize=25)
plt.show()

通过这项分析，我们获得了对 Netflix 数据集的宝贵见解。我们探讨了内容类型、类型和导演的分布，以及内容发布随时间推移的趋势。该分析的结果可用于为内容获取和制作策略提供信息，以及确定增长和改进的机会。

四、研究结论

通过本次分析，我们得出了以下关键结论：

内容类型分布：Netflix的大部分内容为电视节目，且随着时间推移，电视节目的发行量显著增加，反映出用户对系列剧的偏好。
稳定的电影发布：尽管电影是第二常见的内容类型，其发行量保持相对稳定，这表明电影仍然在用户观看习惯中占有重要地位。
热门类型识别：纪录片、电视剧和喜剧是用户最偏好的类型，这为Netflix在内容制作和采购时的重点方向提供了参考。
导演与内容关联：顶级导演的作品主要集中在电视节目上，这表明高质量内容的创作与导演的知名度密切相关。
持续增长的发布趋势：内容发布数量呈显著增长趋势，特别是在2021年出现显著峰值，显示出Netflix对内容扩展的重视。
内容多样性的体现：电影标题的词云图展示了Netflix内容的丰富性和多样性，反映出平台在满足不同观众需求方面的努力。

这些结论不仅对Netflix自身的内容策略具有指导意义，也为其他流媒体平台及内容制作公司提供了宝贵的参考。通过持续关注用户需求和市场趋势，Netflix有望继续巩固其在流媒体行业的领导地位。