数据挖掘:概念与技术第二章总结及练习

第二章认识数据总结

2.1数据对象与属性类型
2.1.1什么是属性
1.标称属性、
2.二元属性、
3.序数属性、
4.数值属性
5.数值属性包括区间标度属性和比率标度属性
6.离散属性与连续属性
2.2数据的基本统计描述

  • 中心趋势度量:均值/中位数/众数/中列数

  • 度量数据散布:极差、四分位数、方差、标准差、四分位数极差,盒图,离群点

  • 数据的基本统计描述的图形显示
    分位数图、分位数-分位数图、直方图、散点图
    2.3数据可视化

  • 基于像素的可视化技术

  • 几何投影可视化技术

  • 基于图符的可视化技术 切尔诺夫脸 人物线条画

  • 层次可视化技术 世界中的世界、树图

  • 可视化复杂对象和关系 标签云
    2.4度量数据的相似性和相异性

  • 数据矩阵与相异性矩阵

  • 标称属性的邻近性度量

  • 二元属性的邻近性度量

  • 数值属性的相异性:闵可夫斯基距离

  • 序数属性的邻近性度量

  • 混合类型属性的相异性

  • 余弦相似性

认识数据练习

2.1数据散步特征的统计度量
变异系数:度量标准差相对于均值的离中趋势
四分位数间距:上四分位数与下四分位数的差值
特点:避免了数列中极端值的影响,去头弃尾,丢失了大量的原始数据
平均差:变量数列中各个变量值与算术平均值的绝对离差的平均数
平均值越大,数列离散趋势越大
异众比率:又称离异比率或变差比,指非众数的次数与全部变量值总次数的比值
2.2

import pandas as pd
mydict={'age':[13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70]}
age=pd.DataFrame(mydict)

a)

#求平均值
age.mean()            #29.962963
#求中位数
age.quantile(0.5)    #25.00

b)

#求众数
age.mode() #25,35

该数据是双峰
c)中列数=(70+13)/2=41.5
d)age.quantile(0.25) #20.5
age.quantile(0.75) #35.0
e)
min 13.000000
25% 20.500000
50% 25.000000
75% 35.000000
max 70.000000
f)

 import matplotlib.pyplot as plt
fig = plt.figure(figsize=(8,6))
age.plot.box(title="Box plot")
plt.grid(linestyle="--", alpha=0.3)
plt.show()   

盒图
g)
分位数-分位数图:对着另一个对应的分位数,绘制一个单变量分布的分位数,使用户可以观察从一个分布到另一个分布是否有漂移;
分位数图: 一种观察单变量数据分布的简单有效方法,它显示给定属性的所有数据(允许寻常和不寻常的出现),其次,它会处理分位数信息。
2.3
N/2=1247
median=21+(1247-950)*29/1500=26.742
2.4

import pandas as pd
mydict1={‘age’:[23,23,27,27,39,41,47,49,50,52,54,54,56,57,58,58,60,61],’%fat’:[9.5,26.5,7.8,17.8,31.4,25.9,27.4,27.2,31.2,34.6,42.5,28.8,33.4,30.2,34.1,32.9,41.2,35.7]}
age=pd.DataFrame(mydict1)
#平均值
age.mean()
#age 46.444444
#%fat 28.783333
#中位数
age.median()
#age 51.0
#%fat 30.7
#标准差
age.std()
#age 13.218624
#%fat 9.254395
#盒图
import matplotlib.pyplot as plt
fig = plt.figure(figsize=(8,6))
age.plot.box(title=“Box2 plot”)
plt.grid(linestyle="–", alpha=0.3)
plt.show()
在这里插入图片描述
#画散点图
plt.plot(age[‘age’],age[’%fat’])
散点图
#导入依赖库
import pandas as pd
from scipy import stats
from matplotlib import pyplot as plt
#绘制并打印QQ图
plt.rcParams[‘axes.unicode_minus’]=False #用来正常显示负号
stats.probplot(age[‘age’], dist=“norm”, plot=plt)
stats.probplot(age[’%fat’], dist=“norm”, plot=plt)
plt.show()
qq图

a)欧几里得距离
6.70
b)曼哈顿距离
3.31
c)

闵可夫斯基距离
15.26
d)上确界距离 6
2-8
在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值