数据源来自Kaggle,链接如下:
此数据集并不复杂,共11列1.66W数据量,因此我觉得适合做MySQL语句的练习项目,将过程简要记录在此当作学习记录
分析的问题如下:
一、游戏题材角度(以sports题材为主)
1、各游戏题材的销量前五游戏 2、各题材前五的发行商
二、不同地区
1、不同地区销量随年份变化趋势 2、不同地区最受欢迎的游戏题材、发行商、游戏平台
三、不同平台(以Wii平台为主)
1、各平台全球销量前五的游戏 2、各平台最受欢迎(数量最多)的题材 3、对平台贡献最大的发行商
四、不同发行商(以Nintendo发行商为主)
1、各发行商在不同地区的销售情况 2、各发行商在不同题材游戏的销售情况 3、各发行商在不同平台的销售情况
首先,将数据集导入Navicat中,创建vgsales数据表,理解各字段含义
Rank - Ranking of overall sales(总销量排名)
Name - The games name(游戏名称)
Platform - Platform of the games release (i.e. PC,PS4, etc.) (游戏平台)
Year - Year of the game's release(游戏发行时间)
Genre - Genre of the game(游戏题材)
Publisher - Publisher of the game(游戏发行商)
NA_Sales - Sales in North America (in millions)(北美销量)
EU_Sales - Sales in Europe (in millions)(欧洲销量)
JP_Sales - Sales in Japan (in millions)(日本销量)
Other_Sales - Sales in the rest of the world (in millions)(其他地区销量)
Global_Sales - Total worldwide sales.(全球总销量)
数据查看与清洗
查看数据有无异常值,发现Publisher,Year字段有N/A异常值,数量不多,故直接删除
DELETE FROM vgsales WHERE `Publisher` = 'N/A'
DELETE FROM vgsales WHERE `Year` = 'N/A'
查看数据中共有多少种游戏题材,共11种,在这里不列举了
SELECT Genre FROM vgsales GROUP BY Genre
查看数据中共有多少个不同的发行商,共576个
SELECT Publisher FROM vgsales GROUP BY Publ