Kaggle Video Game Sales数据分析

最新推荐文章于 2023-12-22 14:42:43 发布

思无邪!

最新推荐文章于 2023-12-22 14:42:43 发布

阅读量2.2k

点赞数

分类专栏： Python

本文链接：https://blog.csdn.net/Saber_Knight/article/details/110940888

版权

本文通过分析Kaggle上的电子游戏销售数据，揭示了游戏行业的发展历程，发现1995年至2009年是发行量高峰期，之后逐渐下降。动作类游戏最受欢迎，PS2是最热门的发行平台，而任天堂、Electronic Arts和暴雪在市场中占据主导地位。此外，文章还探讨了不同地区的游戏类型偏好，为行业提供了战略建议。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.项目介绍：

本次项目分析所用数据集来源于kaggle，官网未提出明确的任务需求。但基于国内游戏行业迅猛发展趋势，可以通过不同国家、发布者、游戏类型等因素，对销售数据进行分析，提出有效的建议，帮助电子游戏销量提高。

2.定义问题

（1）电子游戏行业近年来的发展状况
（2）电子游戏市场分析：受欢迎的游戏、类型、发布平台、发行人等；
（3）top发行商的主导什么类型游戏
（4）【高级】预测每年电子游戏销售额。

#导入库
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

3.查看数据和数据清理

#读取数据
data = pd.read_csv('vgsales.csv')
display('{}records in the dataset'.format(len(data)))
data.head(5)

'16598records in the dataset'

	Rank	Name	Platform	Year	Genre	Publisher	NA_Sales	EU_Sales	JP_Sales	Other_Sales	Global_Sales
0	1	Wii Sports	Wii	2006.0	Sports	Nintendo	41.49	29.02	3.77	8.46	82.74
1	2	Super Mario Bros.	NES	1985.0	Platform	Nintendo	29.08	3.58	6.81	0.77	40.24
2	3	Mario Kart Wii	Wii	2008.0	Racing	Nintendo	15.85	12.88	3.79	3.31	35.82
3	4	Wii Sports Resort	Wii	2009.0	Sports	Nintendo	15.75	11.01	3.28	2.96	33.00
4	5	Pokemon Red/Pokemon Blue	GB	1996.0	Role-Playing	Nintendo	11.27	8.89	10.22	1.00	31.37

可以看出：

该数据集一共有16598行记录
该数据集有11个字段：
- Rank 序号
- Name 游戏名
- Platform 运行平台
- Year 游戏发行年份
- Genre 游戏类型
- Publisher 游戏发行者
- NA_Sales 北美销量（百万套）
- EU_Sales 欧盟销量
- JP_Sales 日本销量
- Other_Sales 其他国家销量
- Global_Sales 全球总销量

#查看数据信息
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16598 entries, 0 to 16597
Data columns (total 11 columns):
Rank            16598 non-null int64
Name            16598 non-null object
Platform        16598 non-null object
Year            16327 non-null float64
Genre           16598 non-null object
Publisher       16540 non-null object
NA_Sales        16598 non-null float64
EU_Sales        16598 non-null float64
JP_Sales        16598 non-null float64
Other_Sales     16598 non-null float64
Global_Sales    16598 non-null float64
dtypes: float64(6), int64(1), object(4)
memory usage: 1.4+ MB

data.isnull().sum()

Rank              0
Name              0
Platform          0
Year            271
Genre             0
Publisher        58
NA_Sales          0
EU_Sales          0
JP_Sales          0
Other_Sales       0
Global_Sales      0
dtype: int64

数据质量整体良好，仅Year和Publisher字段存在缺失值
Year缺失271个，Publisher缺失58个。
由于数据总量大，所以删除缺失部分的数据并不影响

#删除缺失值
data.dropna(inplace=True)
#重置序号
data.reset_index(drop=True,inplace=True)
data.head(10)

	Rank	Name	Platform	Year	Genre	Publisher	NA_Sales	EU_Sales	JP_Sales	Other_Sales	Global_Sales
0	1	Wii Sports	Wii	2006.0	Sports	Nintendo	41.49	29.02	3.77	8.46	82.74
1	2	Super Mario Bros.	NES	1985.0	Platform	Nintendo	29.08	3.58	6.81	0.77	40.24
2	3	Mario Kart Wii	Wii	2008.0	Racing	Nintendo	15.85	12.88	3.79	3.31	35.82
3	4	Wii Sports Resort	Wii	2009.0	Sports	Nintendo	15.75	11.01	3.28	2.96	33.00
4	5	Pokemon Red/Pokemon Blue	GB	1996.0	Role-Playing	Nintendo	11.27	8.89	10.22	1.00	31.37
5	6	Tetris	GB	1989.0	Puzzle	Nintendo	23.20	2.26	4.22	0.58	30.26
6	7	New Super Mario Bros.	DS	2006.0	Platform	Nintendo	11.38	9.23	6.50	2.90	30.01
7	8	Wii Play	Wii	2006.0	Misc	Nintendo	14.03	9.20	2.93	2.85	29.02
8	9	New Super Mario Bros. Wii	Wii	2009.0	Platform	Nintendo	14.59	7.06	4.70	2.26	28.62
9	10	Duck Hunt	NES	1984.0	Shooter	Nintendo	26.93	0.63	0.28	0.47	28.31

#描述性统计
data.describe()

	Rank	Year	NA_Sales	EU_Sales	JP_Sales	Other_Sales	Global_Sales
count	16291.000000	16291.000000	16291.000000	16291.000000	16291.000000	16291.000000	16291.000000
mean	8290.190228	2006.405561	0.265647	0.147731	0.078833	0.048426	0.540910
std	4792.654450	5.832412	0.822432	0.509303	0.311879	0.190083	1.567345
min	1.000000	1980.000000	0.000000	0.000000	0.000000	0.000000	0.010000
25%	4132.500000	2003.000000	0.000000	0.000000	0.000000	0.000000	0.060000
50%	8292.000000	2007.000000	0.080000	0.020000	0.000000	0.010000	0.170000
75%	12439.500000	2010.000000	0.240000	0.110000	0.040000	0.040000	0.480000
max	16600.000000	2020.000000	41.490000	29.020000	10.220000	10.570000	82.740000

#对数据类型为object数据描述
data.describe(include='O')

	Name	Platform	Genre	Publisher
c

最低0.47元/天解锁文章