1.PCA主成分分析
主成分分析(Principal Component Analysis,PCA), 是一种统计方法。通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。
无监督的学习,往特征量最大的特征向量的分销商投影
PCA的主要问题
没有考虑类别号
Discriminant Analysis就是根据研究对象的各种特征值判别其类型归属问题的一种多变量统计分析方法。
监督的学习
尽量保持类区别的情况下进行降维
使用LDA的限制
- LDA至多可生成C-1维子空间
- LDA不适合对非高斯分布的样本进行降维
- LDA在样本分类信息依赖方差而不是均值时,效果不好。
- LDA可能过度拟合数据。
LDA和PCA比较
两者都是为了在对原始数据降维之后进行分类。PCA是无监督的方式,它没有分类标签,降维之后需要采用K-Means或自组织映射网络等无监督的算法进行分类。LDA是有监督的方式,它先对训练数据进行降维,然后找出一个线性判别函数。
3.回归分析Regression Analysis
回归分析(regression analysis)是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。
越大越好 差值的平方和 sum spuares total
4.马尔科夫系统
将来只与现在有关而与过去无关。
隐马尔科夫系统
状态不是直接可见的但是由它导致的结果是可见的,而且每个状态是以一定的概率导致出某种结果。
HMM中典型的马尔可夫问题
已知隐马尔科夫模型的参数(转移概率矩阵和发射概率矩阵),已知隐马尔科夫模型的参数(转移概率矩阵和发射概率矩阵)和输出序列,找出最有可能产生这种输出序列的状态序列。
已知隐马尔科夫模型的参数(转移概率矩阵和发射概率矩阵)和输出序列,找出最有可能产生这种输出序列的状态序列。
已知隐马尔科夫模型的参数(转移概率矩阵和发射概率矩阵),计算某一个输出序列发生的概率。决策树模型
在沿着决策树从上到下遍历的过程中,在每个节点都会遇到一个问题,对每个节点上问题的不同回答导致不同的分支,最后会到达一个叶子节点。这个过程就是利用决策树进行分类的过程,利用几个变量(每个变量对应一个问题)来判断所属的类别(最后每个叶子会对应一个类别)。
Whatis Occam’s Razor?
如无必要,勿增实体
如果对于同一现象有两种不同的假说,我们应该采取比较简单的那一种
What is infor
信息熵是信息量的期望
i代表s的第i个取值
How to use information entropy in DT?
计算信息增益,选择使得信息增益最大的属性作为分类属性以使得分支数尽可能简单。
Whatis the main issue with information entropy?
倾向于选择有多个属性值的属性,一种极端的情况是某个包含n个数据点的数据集的某个属性也有n个属性值,如果用信息增益作为属性选择度量,就一定会选择这个属性,但是这种分类显然毫无意义。
Whyand how to do pruning in DT?
因为每一条自根节点到叶子节点的路径都对应一条规则,所以树的深度越大,其对应的规则越长就越难被人理解,还有过度拟合现象的存在,所以无论是从决策树的分类精度,还是从其规模以及可理解性角度考虑,对与决策树的剪枝是非常有必要的,需要通过剪枝(简化过程)来提高泛化能力
剪枝的两种方式:前剪枝和后剪枝
合并或联合两个叶节点,如果能引起令人满意的不纯度增长。
从叶节点往上回溯,比较剪掉该叶节点前后的损失函数的值,如果剪掉后,损失函数更小就剪掉
Howto handle continuous attributes in DT?
设置阈值将属性值分成几个区域