数据基本情况查看
from pandas import Series,DataFrame
from numpy import nan as NA
data = pd.read_csv('C://Users//TD//Desktop//hosptdata.csv')
print(data.dropna())
data.head(5) #显示前5行数据
data.tail(5) #显示后5行
data.columns #查看列名
data.info() #查看各字段的信息
data.shape #查看数据集行列分布,几行几列
data.describe() #查看数据的大体情况
data['MSSubClass'].skew() #列出数据的偏斜度
data['MSSubClass'].value_counts() #统计某一列中各个元素值出现的次数
data['LotFrontage'].corr(data['LotArea']) # 计算2列相系数
#计算两个列的相关度
数据缺失值处理
1.使用可用特征的均值来填补缺失值;
2.使用特殊值来填补缺失值,如-1;
3.忽略有缺失值的样本;
4.使用相似样本的均值添补缺失值;
5.使用另外的机器学习算法预测缺失值。
(1)删除缺失值
from pandas import Series,DataFrame
from numpy import nan as NA
data = pd.read_csv('C://Users//TD//Desktop//hosptdata.csv')
print(data.dropna())
删除指定记录第1299条数数据
data= data.drop(data[data['Id'] == 1299].index)
(2)补充缺失值
将x1中的缺失值用0进行填充
from pandas import Series,DataFrame, np
from numpy import nan as NA
X1= data[['年龄']]
X1.fillna(0)
均值填充缺失值
data.fillna(data.mean())
中位数填补
data['file2'] = data['file2'].fillna(data['file2'].median())
(3)异常值统计和识别
找出第3列中(file3)绝对值大小超过3项数
from pandas import Series,DataFrame, np
from numpy import nan as NA
data.describe() ##查看数据的描述统计量
file3=data[3]
finddata <- col[np.abs(file3) > 12]
print(finddata )
找出字段下的全部绝对值超过12的值的行
file3=col[(np.abs(file) > 12).any(1)]
print(file3)
统计缺失值个数
file33=file3.isnull()
count=ffile33.count()
(4)删除重复数据处理
删除data中的重复数据
data.duplicated()