数据挖掘如何计算相关性_数据挖掘常用的工具（统计学角度）

最新推荐文章于 2022-11-15 14:23:04 发布

weixin_39936792

最新推荐文章于 2022-11-15 14:23:04 发布

阅读量454

点赞数

文章标签：数据挖掘如何计算相关性

Occam剃刀

越简单越好

原假设

原假设是假定在观测中的不同只归因于偶然性。

数据挖掘者和统计学家之间的一个差别是，数据挖掘者时常面对足够大量的数据，没有必要去考虑那些归因于偶然性事件的概率计算技巧。

p值

一般常用p值给出原假设为真的概率。当原假设为真是，表示真的没有发生什么，因为差异归因于偶然性。置信度，又是称为q值，是p值的反面。通常的目标是追求至少90%的置信层次，如果达不到95%或者更多的话。

观察数据

观察离散数值

直方图
时间序列
标准值
从标准化值到概率(双尾状分布、单尾状分布)
交叉表

观察连续变量

连续变量的统计学度量(变动范围、均值、中值、众数)
离差和标准差

另一对统计概念

相关性
回归

测定响应

比例标准误差

使用置信界限比较结果

使用比例差值比较结果

样本大小

置信区间的真正含义

实验的测试群组和对照群组大小

多重比较

多重比较下的置信层次

置信层次只是基于单一比较。当有多重比较时，前提条件就不正确，因此前面所计算的置信都就不太充分了。

Bonferroni修正

按照做出比较的数据分配期望的p值界限，一遍得到所有比较的1-p的置信度。

卡方检验

特别为多重测试且至少有两个离散结果的情形设计的。卡方检验是决策树最初形式之一的基础。

期望值

卡方值

使用卡方检验的步骤

计算期望值
计算偏离期望值的离差
计算卡方
对表格的全部卡方值求和
计算观测值归因于偶然性的概率

自由度：

卡方于比例差值的比较

数据挖掘和统计学异同

数据挖掘者倾向于忽略原始数据中的测量误差
数据挖掘者假定有足够多的数据和足够强的处理能力
数据挖掘假定时时处处具有相关性
在商业界设计试验可能很困难
数据已被截取或者审查

weixin_39936792

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数据挖掘如何计算相关性_数据挖掘常用的工具（统计学角度）

Occam剃刀越简单越好原假设原假设是假定在观测中的不同只归因于偶然性。数据挖掘者和统计学家之间的一个差别是，数据挖掘者时常面对足够大量的数据，没有必要去考虑那些归因于偶然性事件的概率计算技巧。p值一般常用p值给出原假设为真的概率。当原假设为真是，表示真的没有发生什么，因为差异归因于偶然性。置信度，又是称为q值，是p值的反面。通常的目标是追求至少90%的置信层次，如果达不到95%或者更多的话。观察...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。