1.数据预处理
导入包
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
导入数据(数据资源分享链接见文末)
data = pd.read_excel(r'数据.xlsx')
在Console查看导入的数据
data
因为原excel文件里还有其他信息,所以数据需要处理
处理数据
在Console查看data的数据类型:
type(data)
取Dataframe类型的数据的第一列:
data1=data.iloc[:,0]
统计数据个数:
发现少1个数(总共应该有50个数)
原来是第一个数4.1被当成了DataFrame的索引:
补充缺失的值4.1
先在Console查看data1的数据类型
type(data1)
补充Series的缺失值:
n=pd.Series([4.1])
data2=data1.append(n)
2.制作频数分布表
将data2分为5个区间(0, 3],(3, 6],(6, 9],(9,12],(12,15]:
a=pd.cut(data2,[0,3,6,9,12,15], labels=[u"(0,3]",u"(3,6]",u"(6,9]",u"(9,12]",u"(12,15]"])