Occam剃刀
越简单越好
原假设
原假设是假定在观测中的不同只归因于偶然性。
数据挖掘者和统计学家之间的一个差别是,数据挖掘者时常面对足够大量的数据,没有必要去考虑那些归因于偶然性事件的概率计算技巧。
p值
一般常用p值给出原假设为真的概率。当原假设为真是,表示真的没有发生什么,因为差异归因于偶然性。置信度,又是称为q值,是p值的反面。通常的目标是追求至少90%的置信层次,如果达不到95%或者更多的话。
观察数据
观察离散数值
- 直方图
- 时间序列
- 标准值
- 从标准化值到概率(双尾状分布、单尾状分布)
- 交叉表
观察连续变量
- 连续变量的统计学度量(变动范围、均值、中值、众数)
- 离差和标准差
另一对统计概念
- 相关性
- 回归
测定响应
比例标准误差
![d941c480ed65f289808bea47ec28760d.png](https://i-blog.csdnimg.cn/blog_migrate/e96b38376731a53eb492b1c21512d4c9.jpeg)
使用置信界限比较结果
![a353e7547e9cc8fecc5e6a297f4bb0e2.png](https://i-blog.csdnimg.cn/blog_migrate/f26cbb471c6ef9fc30262c779d88d6fc.jpeg)
使用比例差值比较结果
![96850ee448003b8ce21fd76d38b08c9b.png](https://i-blog.csdnimg.cn/blog_migrate/57ad9143274081bb43b73aeb5ae8345d.jpeg)
![be9cf4c845a1b9cc998378c5b08bf1d1.png](https://i-blog.csdnimg.cn/blog_migrate/5b0fcc9fd00490b8d1bfffd924f3bba6.jpeg)
样本大小
![bfd2fef5fa11a963956a4e88a516e158.png](https://i-blog.csdnimg.cn/blog_migrate/cfb3229efc1d00c452c82505690db2e8.jpeg)
置信区间的真正含义
实验的测试群组和对照群组大小
多重比较
多重比较下的置信层次
置信层次只是基于单一比较。当有多重比较时,前提条件就不正确,因此前面所计算的置信都就不太充分了。
Bonferroni修正
按照做出比较的数据分配期望的p值界限,一遍得到所有比较的1-p的置信度。
卡方检验
特别为多重测试且至少有两个离散结果的情形设计的。卡方检验是决策树最初形式之一的基础。
期望值
![d9ea95f08c0453743f6b724e39b38379.png](https://i-blog.csdnimg.cn/blog_migrate/7b564176a33e8d0130ebf69161d4ed85.jpeg)
卡方值
![e2633a43fd034309d369060f73ca7f61.png](https://i-blog.csdnimg.cn/blog_migrate/bf03fd2097ec4d644954375a2238d899.jpeg)
使用卡方检验的步骤
- 计算期望值
- 计算偏离期望值的离差
- 计算卡方
- 对表格的全部卡方值求和
- 计算观测值归因于偶然性的概率
自由度:
![1190abca1d1d6d4dc8faa5b19c340477.png](https://i-blog.csdnimg.cn/blog_migrate/13a4dbd19be99c08b0dead246eeb37c4.jpeg)
卡方于比例差值的比较
![e99cbf8c0dd556471f32155e8c881523.png](https://i-blog.csdnimg.cn/blog_migrate/9b913b4ddb434de064322a3a789f3f05.jpeg)
数据挖掘和统计学异同
- 数据挖掘者倾向于忽略原始数据中的测量误差
- 数据挖掘者假定有足够多的数据和足够强的处理能力
- 数据挖掘假定时时处处具有相关性
- 在商业界设计试验可能很困难
- 数据已被截取或者审查