数据理解常用函数

Wknight1994

于 2019-04-29 22:49:57 发布

阅读量254

点赞数

分类专栏：数据挖掘文章标签：数据理解数据分析

本文链接：https://blog.csdn.net/Wknight1994/article/details/89683303

版权

数据挖掘专栏收录该内容

0 篇文章 0 订阅

订阅专栏

1、数据的相关性

通常用来计算两个属性的相关性的方法是皮尔逊相关系数，介于-1~1之间。通过Dataframe的corr()方法来计算数据相关性，如果数据属性之间关联性过高，则进行降维处理。

from pandas import read_csv
filename='iris.csv'
names=['separ-length','separ-width','petal-length','petal-width','class']
dataset=read_csv(filename,names=names)
print(dataset.corr(method='pearson'))

2数据分布分析

使用Dataframe的skew()方法来计算所有数据属性的高斯分布偏离情况

from pandas import read_csv
filename='iris.csv'
names=['separ-length','separ-width','petal-length','petal-width','class']
dataset=read_csv(filename,names=names)
print(dataset.skew())