数据挖掘如何计算相关性_数据挖掘常用的工具(统计学角度)

Occam剃刀

越简单越好

原假设

原假设是假定在观测中的不同只归因于偶然性。

数据挖掘者和统计学家之间的一个差别是,数据挖掘者时常面对足够大量的数据,没有必要去考虑那些归因于偶然性事件的概率计算技巧。

p值

一般常用p值给出原假设为真的概率。当原假设为真是,表示真的没有发生什么,因为差异归因于偶然性。置信度,又是称为q值,是p值的反面。通常的目标是追求至少90%的置信层次,如果达不到95%或者更多的话。

观察数据

观察离散数值

  • 直方图
  • 时间序列
  • 标准值
  • 从标准化值到概率(双尾状分布、单尾状分布)
  • 交叉表

观察连续变量

  • 连续变量的统计学度量(变动范围、均值、中值、众数)
  • 离差和标准差

另一对统计概念

  • 相关性
  • 回归

测定响应

比例标准误差

d941c480ed65f289808bea47ec28760d.png

使用置信界限比较结果

a353e7547e9cc8fecc5e6a297f4bb0e2.png

使用比例差值比较结果

96850ee448003b8ce21fd76d38b08c9b.png
be9cf4c845a1b9cc998378c5b08bf1d1.png

样本大小

bfd2fef5fa11a963956a4e88a516e158.png

置信区间的真正含义

实验的测试群组和对照群组大小

多重比较

多重比较下的置信层次

置信层次只是基于单一比较。当有多重比较时,前提条件就不正确,因此前面所计算的置信都就不太充分了。

Bonferroni修正

按照做出比较的数据分配期望的p值界限,一遍得到所有比较的1-p的置信度。

卡方检验

特别为多重测试且至少有两个离散结果的情形设计的。卡方检验是决策树最初形式之一的基础。

期望值

d9ea95f08c0453743f6b724e39b38379.png

卡方值

e2633a43fd034309d369060f73ca7f61.png

使用卡方检验的步骤

  • 计算期望值
  • 计算偏离期望值的离差
  • 计算卡方
  • 对表格的全部卡方值求和
  • 计算观测值归因于偶然性的概率

自由度:

1190abca1d1d6d4dc8faa5b19c340477.png

卡方于比例差值的比较

e99cbf8c0dd556471f32155e8c881523.png

数据挖掘和统计学异同

  • 数据挖掘者倾向于忽略原始数据中的测量误差
  • 数据挖掘者假定有足够多的数据和足够强的处理能力
  • 数据挖掘假定时时处处具有相关性
  • 在商业界设计试验可能很困难
  • 数据已被截取或者审查
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值