一.获取数据分布情况
描述
pandas模块中的describe()函数可以按列获取数据表中所有数值数据的分布情况,包括数据的个数、均值、最值、方差、分位数等
用法和参数
DataFrame.describe()
实例
import pandas as pd
data = pd.read_excel('产品统计表.xlsx')
# 查看整个数据表的数据分布情况
print(data.describe())
'''
成本价(元/个) 销售价(元/个) 数量(个) 成本(元) 收入(元) 利润(元)
count 7.000000 7.000000 7.000000 7.000000 7.000000 7.000000
mean 52.000000 128.428571 51.142857 2971.714286 6879.571429 3907.857143
std 31.112698 50.483849 20.053500 2391.447659 4352.763331 2002.194498
min 16.000000 65.000000 23.000000 368.000000 1495.000000 1127.000000
25% 26.000000 94.500000 38.000000 948.000000 3861.000000 2913.000000
50% 58.000000 124.000000 58.000000 3364.000000 7192.000000 3828.000000
75% 74.000000 167.000000 61.500000 4077.000000 8581.000000 4504.000000
max 90.000000 187.000000 78.000000 7020.000000 14586.000000 7566.000000
'''
# 查看某一列数据的分布情况
print(data['利润(元)'].describe())
'''
count 7.000000
mean 3907.857143
std 2002.194498
min 1127.000000
25% 2913.000000
50% 3828.000000
75% 4504.000000
max 7566.000000
Name: 利润(元), dtype: float64
'''
二.获取相关系数
描述
pandas模块中的corr()函数可以计算相关函数,相关系数通常用来衡量两个或多个元素之间的相关程度
用法和参数
DataFrame.corr()
实例
import pandas as pd
data = pd.read_excel('相关性分析.xlsx')
# 查看数据表中各列之间的相关系数
print(data.corr())
'''
年销售额(万元) 年广告费投入额(万元) 成本费用(万元) 管理费用(万元)
年销售额(万元) 1.000000 0.996275 0.914428 0.218317
年广告费投入额(万元) 0.996275 1.000000 0.918404 0.223187
成本费用(万元) 0.914428 0.918404 1.000000 0.284286
管理费用(万元) 0.218317 0.223187 0.284286 1.000000
'''
# 查看某一列与其他列的相关系数
print(data.corr()['年销售额(万元)'])
'''
年销售额(万元) 1.000000
年广告费投入额(万元) 0.996275
成本费用(万元) 0.914428
管理费用(万元) 0.218317
Name: 年销售额(万元), dtype: float64
'''