鸢尾花数据分析报告
1、读取数据
import pandas as pd
import numpy as np
pd.set_option('display.max_columns',20)
pd.set_option('display.max_rows',20)
df=pd.read_csv("D:\Test\iris.csv")
备注:sl:花萼长 sw:花萼宽 pl:花瓣长 pw:花瓣款 style:花的种类
简单描述数据的组成:每一列数据的大致统计:数据量,均值,方差,最小值,第一,二,三四分位数,最大值
2、数据清洗 主要去除异常值,空值,不合规数据数值 在本次分析报告中关于数据的清洗省略 假定所有数据均为合规数据
3、数据特征化处理
数据集结构描述:
特征处理:
关于 花萼长,宽,花瓣长,宽 进行标准化处理 StandardScaler
关于花的类型进行标签化: LabelEncoder 将花的种类编码为1,2,3
分别代表3种类型的花
4、数据可视化描述
在做这部分对数据结构进行分解 花的类型作为标注
#绘制直方图:表示每个数据出现次数大致统计情况
x.hist(figsize=(10,10),bins=150,alpha=0.8)