Kaggle Video Game Sales数据分析

本文通过分析Kaggle上的电子游戏销售数据,揭示了游戏行业的发展历程,发现1995年至2009年是发行量高峰期,之后逐渐下降。动作类游戏最受欢迎,PS2是最热门的发行平台,而任天堂、Electronic Arts和暴雪在市场中占据主导地位。此外,文章还探讨了不同地区的游戏类型偏好,为行业提供了战略建议。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.项目介绍:

本次项目分析所用数据集来源于kaggle,官网未提出明确的任务需求。但基于国内游戏行业迅猛发展趋势,可以通过不同国家、发布者、游戏类型等因素,对销售数据进行分析,提出有效的建议,帮助电子游戏销量提高。

2.定义问题

(1)电子游戏行业近年来的发展状况
(2)电子游戏市场分析:受欢迎的游戏、类型、发布平台、发行人等;
(3)top发行商的主导什么类型游戏
(4)【高级】预测每年电子游戏销售额。

#导入库
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

3.查看数据和数据清理

#读取数据
data = pd.read_csv('vgsales.csv')
display('{}records in the dataset'.format(len(data)))
data.head(5)
'16598records in the dataset'
Rank Name Platform Year Genre Publisher NA_Sales EU_Sales JP_Sales Other_Sales Global_Sales
0 1 Wii Sports Wii 2006.0 Sports Nintendo 41.49 29.02 3.77 8.46 82.74
1 2 Super Mario Bros. NES 1985.0 Platform Nintendo 29.08 3.58 6.81 0.77 40.24
2 3 Mario Kart Wii Wii 2008.0 Racing Nintendo 15.85 12.88 3.79 3.31 35.82
3 4 Wii Sports Resort Wii 2009.0 Sports Nintendo 15.75 11.01 3.28 2.96 33.00
4 5 Pokemon Red/Pokemon Blue GB 1996.0 Role-Playing Nintendo 11.27 8.89 10.22 1.00 31.37

可以看出:

  • 该数据集一共有16598行记录
  • 该数据集有11个字段:
    • Rank 序号
    • Name 游戏名
    • Platform 运行平台
    • Year 游戏发行年份
    • Genre 游戏类型
    • Publisher 游戏发行者
    • NA_Sales 北美销量(百万套)
    • EU_Sales 欧盟销量
    • JP_Sales 日本销量
    • Other_Sales 其他国家销量
    • Global_Sales 全球总销量
#查看数据信息
data.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16598 entries, 0 to 16597
Data columns (total 11 columns):
Rank            16598 non-null int64
Name            16598 non-null object
Platform        16598 non-null object
Year            16327 non-null float64
Genre           16598 non-null object
Publisher       16540 non-null object
NA_Sales        16598 non-null float64
EU_Sales        16598 non-null float64
JP_Sales        16598 non-null float64
Other_Sales     16598 non-null float64
Global_Sales    16598 non-null float64
dtypes: float64(6), int64(1), object(4)
memory usage: 1.4+ MB
data.isnull().sum()
Rank              0
Name              0
Platform          0
Year            271
Genre             0
Publisher        58
NA_Sales          0
EU_Sales          0
JP_Sales          0
Other_Sales       0
Global_Sales      0
dtype: int64
  • 数据质量整体良好,仅Year和Publisher字段存在缺失值
  • Year缺失271个,Publisher缺失58个。
  • 由于数据总量大,所以删除缺失部分的数据并不影响
#删除缺失值
data.dropna(inplace=True)
#重置序号
data.reset_index(drop=True,inplace=True)
data.head(10)
Rank Name Platform Year Genre Publisher NA_Sales EU_Sales JP_Sales Other_Sales Global_Sales
0 1 Wii Sports Wii 2006.0 Sports Nintendo 41.49 29.02 3.77 8.46 82.74
1 2 Super Mario Bros. NES 1985.0 Platform Nintendo 29.08 3.58 6.81 0.77 40.24
2 3 Mario Kart Wii Wii 2008.0 Racing Nintendo 15.85 12.88 3.79 3.31 35.82
3 4 Wii Sports Resort Wii 2009.0 Sports Nintendo 15.75 11.01 3.28 2.96 33.00
4 5 Pokemon Red/Pokemon Blue GB 1996.0 Role-Playing Nintendo 11.27 8.89 10.22 1.00 31.37
5 6 Tetris GB 1989.0 Puzzle Nintendo 23.20 2.26 4.22 0.58 30.26
6 7 New Super Mario Bros. DS 2006.0 Platform Nintendo 11.38 9.23 6.50 2.90 30.01
7 8 Wii Play Wii 2006.0 Misc Nintendo 14.03 9.20 2.93 2.85 29.02
8 9 New Super Mario Bros. Wii Wii 2009.0 Platform Nintendo 14.59 7.06 4.70 2.26 28.62
9 10 Duck Hunt NES 1984.0 Shooter Nintendo 26.93 0.63 0.28 0.47 28.31
#描述性统计
data.describe()
Rank Year NA_Sales EU_Sales JP_Sales Other_Sales Global_Sales
count 16291.000000 16291.000000 16291.000000 16291.000000 16291.000000 16291.000000 16291.000000
mean 8290.190228 2006.405561 0.265647 0.147731 0.078833 0.048426 0.540910
std 4792.654450 5.832412 0.822432 0.509303 0.311879 0.190083 1.567345
min 1.000000 1980.000000 0.000000 0.000000 0.000000 0.000000 0.010000
25% 4132.500000 2003.000000 0.000000 0.000000 0.000000 0.000000 0.060000
50% 8292.000000 2007.000000 0.080000 0.020000 0.000000 0.010000 0.170000
75% 12439.500000 2010.000000 0.240000 0.110000 0.040000 0.040000 0.480000
max 16600.000000 2020.000000 41.490000 29.020000 10.220000 10.570000 82.740000
#对数据类型为object数据描述
data.describe(include='O')
Name Platform Genre Publisher
c
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值