【Python数据分析】pandas常用基础数据分析代码

目录

一、获取老番茄数据

二、python数据分析

1、读取数据源

2、查看数据概况

3、查看异常值

4.1、查看最大值(max函数)

4.2、查看最小值(min函数)

5.1、查看TOP3的视频(nlargest函数)

5.2、查看倒数3的视频(nsmallest函数)

6、查看相关性

7.1、可视化分析-plot

7.2、可视化分析-pyecharts

三、同步讲解视频


一、获取老番茄数据

首先,看下目标分析数据:

含字段:

  • 视频标题
  • 视频地址
  • 视频上传时间
  • 视频时长
  • 是否合作视频
  • 视频分区
  • 弹幕数
  • 播放量
  • 点赞数
  • 投币量
  • 收藏量
  • 评论数
  • 转发量
  • 实时爬取时间

基于这份老番茄数据,用python做了以下基础数据分析的开发。

二、python数据分析

1、读取数据源

import pandas as pd
df = pd.read_excel('老番茄.xlsx', parse_dates=['视频上传时间', '实时爬取时间'])  # 读取excel数据

2、查看数据概况

df.head(3)  # 查看前三行数据
df.shape  # 查看形状,几行几列
df.info()  # 查看列信息
df.describe()  # 数据分析
df['是否合作视频'].value_counts()  # 统计:是否合作视频
df['视频分区'].value_counts()  # 统计:视频分区

3、查看异常值

df2 = df[['视频标题', '视频地址', '弹幕数', '播放量',
          '点赞数', '投币量', '收藏量', '评论数', '转发量', '视频上传时间']]  # 去掉不关心的列
df2.loc[df.评论数 == 0]  # 评论数是0的数据
df2.isnull().any()  # 空值
df2.duplicated().any()  # 重复值

4.1、查看最大值(max函数)

df2.loc[df.播放量 == df['播放量'].max()]  # 播放量最高的视频
df2.loc[df.弹幕数 == df['弹幕数'].max()]  # 弹幕数最高的视频

4.2、查看最小值(min函数)

df2.loc[df.投币量 == df['投币量'].min()]  # 投币量最小的视频
df2.loc[df.收藏量 == df['收藏量'].min()]  # 收藏量最小的视频

5.1、查看TOP3的视频(nlargest函数)

df2.nlargest(n=3, columns='播放量')  # 播放量TOP3的视频
df2.nlargest(n=3, columns='投币量')  # 投币量TOP3的视频

5.2、查看倒数3的视频(nsmallest函数)

df2.nsmallest(n=3, columns='评论数')  # 评论数倒数3的视频
df2.nsmallest(n=3, columns='转发量')  # 转发量倒数3的视频

6、查看相关性

# 查看spearman相关性(得出结论:收藏量&投币量,相关性最大,0.98)
df2.corr(method='spearman') 

7.1、可视化分析-plot

import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif'] = ['SimHei']  # 显示中文标签  # 指定默认字体
plt.rcParams['axes.unicode_minus'] = False  # 解决保存图像是负号'-'显示为方块的问题
# 可视化效果不好
df2.plot(x='视频上传时间', y=['弹幕数', '播放量', '点赞数', '投币量', '收藏量', '评论数', '转发量'])

7.2、可视化分析-pyecharts

from pyecharts.charts import Line  # 折线图所导入的包
from pyecharts import options as opts  # 全局设置所导入的包
time_list = df2['视频上传时间'].astype(str).values.tolist()
line = (
    Line()  # 实例化Line
    # 加入X轴数据
    .add_xaxis(time_list)
    # 加入Y轴数据
    .add_yaxis("弹幕数", df2['弹幕数'].values.tolist())
    .add_yaxis("播放量", df2['播放量'].values.tolist())
    .add_yaxis("点赞数", df2['点赞数'].values.tolist())
    .add_yaxis("投币量", df2['投币量'].values.tolist())
    .add_yaxis("收藏量", df2['收藏量'].values.tolist())
    .add_yaxis("评论数", df2['评论数'].values.tolist())
    .add_yaxis("转发量", df2['转发量'].values.tolist())
    .set_global_opts(title_opts=opts.TitleOpts(title="老番茄数据分析"),
                     legend_opts=opts.LegendOpts(is_show=True),
                     )
    # 全局设置项
)

 

至此,基础数据分析工作完成了。

三、同步讲解视频


逐行代码视频讲解:

【python数据分析】4分钟讲解pandas数据分析老番茄

首发公众号文章:【Python数据分析案例】python数据分析老番茄视频数据


我是马哥,全网累计粉丝上万,欢迎一起交流python技术。

各平台搜索“马哥python说”:知乎、哔哩哔哩、小红书、新浪微博。

  • 12
    点赞
  • 232
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 5
    评论
VSCode(Visual Studio Code)是一款轻量级的代码编辑器,它支持多种编程语言和开发环境。在数据分析领域,VSCode可以通过安装相应的插件来提供强大的数据分析功能。 以下是一些常用的VSCode数据分析插件和功能: 1. Python插件:VSCode提供了强大的Python支持,可以通过安装Python插件来进行数据分析。该插件提供了代码补全、调试、代码格式化等功能,同时还支持Jupyter Notebook的交互式开发。 2. R插件:如果你使用R语言进行数据分析,可以安装R插件来提供R语言的开发环境。该插件支持代码补全、语法检查、调试等功能。 3. 数据可视化插件:VSCode提供了多个数据可视化插件,如Plotly、Matplotlib等,可以帮助你将数据以图表的形式展示出来,更直观地理解和分析数据。 4. SQL插件:如果你需要进行SQL查询和分析数据库中的数据,可以安装SQL插件来提供SQL语言的支持。该插件可以连接到各种数据库,并提供SQL语句的编辑、执行和结果展示功能。 5. Git集成:VSCode内置了Git版本控制工具,可以方便地管理和追踪代码的变化。在数据分析过程中,你可以使用Git来管理数据分析代码和文档的版本。 6. Jupyter Notebook支持:VSCode可以通过安装Jupyter插件来支持Jupyter Notebook的功能。你可以在VSCode中创建和编辑Jupyter Notebook文件,并进行交互式的数据分析和可视化。 总结起来,VSCode通过安装相应的插件,提供了丰富的数据分析功能,包括多种编程语言的支持、数据可视化、SQL查询、版本控制等。它的轻量级和灵活性使得它成为许多数据分析师和科学家的首选工具。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

马哥python说

打赏多少不重要,表达认可最重要

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值