数据来源:kaggle
目录
项目背景
这个数据集包含了一系列销量超过10万份的电子游戏。它是由 vgchartz 网站提供的。字段包括总销售排名、游戏名称、游戏发布的平台(即 pc,ps4等)、游戏发布的年份、游戏类型、游戏发布者、游戏在北美的销售额、欧洲销售额、日本销售额、在世界其他地区销售额、全球销售额等。
数据概览
字段名 | 字段释义 |
---|---|
Rank | Ranking of overall sales |
Name | The games name |
Platform | Platform of the games release (i.e. PC,PS4, etc.) |
Year | Year of the game’s release |
Genre | Genre of the game |
Publisher | Publisher of the game |
NA_Sales | Sales in North America (in millions) |
EU_Sales | Sales in Europe (in millions) |
JP_Sales | Sales in Japan (in millions) |
Other_Sales | Sales in the rest of the world (in millions) |
Global_Sales | Total worldwide sales. |
分析目标
1.电子游戏市场分析:受欢迎的发行人、发布平台、游戏类型;
2.可视化应用:完整清晰的展示这个销售故事。
数据清洗
根据数据整体情况来看:
1.目前有空值的是Year(要改为字符类型)、Publisher,需要填充或删除。
策略:Publisher 用众数填充,Year删除17年、20年的数据。
2.转换Year的数据类型
策略:将Year转换为字符型。
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
# 读取数据
df