1.数据集下载
#下载数据集
!wget -O pokemon_data.csv https://pai-public-data.oss-cn-beijing.aliyuncs.com/pokemon/pokemon.csv
!pip install seaborn --user -q
2.代码
# 导入包
# pandas是一个强大的分析结构化数据的工具集;它的使用基础是Numpy(提供高性能的矩阵运算);用于数据挖掘和数据分析,同时也提供数据清洗功能。
import pandas as pd
# seaborn就是在matplotlib基础上面的封装,方便直接传参数调用
import seaborn as sns
# matplotlib.pyplot是一个有命令风格的函数集合,它看起来和MATLAB很相似。每一个pyplot函数都使一副图像做出些许改变
import matplotlib.pyplot as plt
# 将csv文件读入并转化为数据框形式
df = pd.read_csv("./pokemon_data.csv")
# head( )函数读取前五行数据
df.head()
# 查看数据的基本统计信息(如索引、列数、列名、数据量、数据类型、缺失值、内存等)
df.info()
# 计算出每个特征有多少百分比是缺失的
# python的pandas库的isnull()函数,用来判断缺失值
percent_missing = df.isnull().sum() * 100 / len(df)
missing_va