数据分析练习

说明:爬取了b站8月综合得分前100的视频,做一个数据小练习

1导入模块

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False

2导入数据

data = pd.read_csv(r"D:/data_set/data_set/my_data_learing/bilibili_augest_top100.csv",encoding="utf-8")
data.head()

3数据处理

# 数据描述
data.shape

data.dtypes

问题1:将播放量和弹幕量的格式改为浮点型数据,需要去掉单位

data["播放量"] = data['播放量'].str.replace('万','').astype(float)
data["弹幕量"] = data['弹幕量'].str.replace('万','').astype(float)

此时,两个属性的值都是float格式。

问题2:弹幕量属性中,有部分数据的单位不是万,找出这部分数据然后除以10000

data["弹幕量"] = data["弹幕量"].apply(lambda x: x/10000 if x>50 else x)

问题3:修改columns名称

data.rename(columns={"播放量":"播放量(万)","弹幕量":"弹幕量(万)"},inplace=True)

 

4数据可视化

# 查看分组后各分区对应数目
data_class = data.groupby("分区").size()

问题3:各分区数量

fig, axes = plt.subplots(1,1)
data_class.plot(kind='bar')
x = np.arange(data_class.shape[0])
for x,y in zip(x,data_class.values):
    plt.text(x,y+0.05, "{:.0f}".format(y),ha="center")
plt.ylabel("数量")
plt.title('各分区数量')

结论:由此图可以看出排在前三的有生活类、动画类和鬼畜类视频,这个结果很bilibili。

问题4:弹幕量与播放量对比

data_class_playnum = data.groupby('分区')[['播放量','弹幕量']].sum()

fig, axes = plt.subplots(figsize=(10,5),sharey=False)
axes.bar(data_class_playnum.index,data_class_playnum['播放量(万)'])
ax2 = axes.twinx()
ax2.plot(data_class_playnum.index,data_class_playnum['弹幕量(万)'],color='red')
axes.set_title("各分区播放量与弹幕量对比")
axes.set_ylabel("播放量(万)")
ax2.set_ylabel("弹幕量(万)")

结论:生活类视频的播放量和弹幕量都非常高,而动画类和鬼畜类视频的弹幕差不多,知识类和游戏类视频播放量虽然不如前三名,但这两者的弹幕量相较而言比较突出(弹幕播放比)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Python数据分析练习是指通过使用Python编程语言来处理和分析数据的实践活动。这些练习旨在让学习者掌握如何使用Python数据分析库来处理和分析实际的数据集。 在Python数据分析练习中,学习者首先需要了解如何读取和导入数据集。Python有很多库可以用于读取和处理各种格式的数据,例如CSV、Excel、JSON等。学习者需要学习如何使用这些库来加载和处理自己感兴趣的数据。 然后,学习者需要学习如何清洗和预处理数据。数据通常存在一些缺失值、异常值和重复值,需要使用Python库来清洗和处理这些问题。此外,学习者还需要了解如何对数据进行规范化和标准化,以便于后续的分析工作。 接下来,学习者可以学习如何使用Python进行数据分析和可视化。Python有很多数据分析库,例如Pandas、NumPy和Matplotlib等。学习者需要学习如何使用这些库来计算统计指标、绘制图表和进行数据挖掘。学习者可以使用这些库来回答自己感兴趣的问题,例如数据的趋势、相关性和模式等。 最后,学习者需要学习如何进行数据报告和沟通。数据分析不仅仅是处理数据,还需要将结果以清晰和易懂的方式传达给其他人。学习者可以使用Python的文档编写和可视化库来创建数据报告和可视化演示,以向他人展示分析结果。 总之,Python数据分析练习是通过使用Python编程语言来处理和分析数据的实践活动。学习者需要学习如何读取和导入数据、清洗和预处理数据、使用数据分析和可视化库进行数据分析,以及进行数据报告和沟通。这些练习可以帮助学习者掌握Python数据分析的技能,为实际问题提供解决方案。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值