算法部分整理

hello-elena

于 2016-06-21 17:24:28 发布

阅读量350

点赞数

分类专栏：数据结构

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/l1l2l3q1q2q3/article/details/51728652

版权

数据结构专栏收录该内容

17 篇文章

订阅专栏

1.PCA主成分分析

主成分分析（Principal Component Analysis，PCA），是一种统计方法。通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量，转换后的这组变量叫主成分。

无监督的学习，往特征量最大的特征向量的分销商投影

PCA的主要问题

没有考虑类别号

进行主成分分析主要步骤如下：

1. 指标数据标准化（ SPSS软件自动执行）；

2. 指标之间的相关性判定；

3. 确定主成分个数m；

4. 主成分Fi表达式；

5. 主成分Fi命名；

2.LDA

Discriminant Analysis就是根据研究对象的各种特征值判别其类型归属问题的一种多变量统计分析方法。

监督的学习

尽量保持类区别的情况下进行降维

使用LDA的限制

LDA至多可生成C-1维子空间
LDA不适合对非高斯分布的样本进行降维
LDA在样本分类信息依赖方差而不是均值时，效果不好。
LDA可能过度拟合数据。

LDA和PCA比较

两者都是为了在对原始数据降维之后进行分类。PCA是无监督的方式，它没有分类标签，降维之后需要采用K-Means或自组织映射网络等无监督的算法进行分类。LDA是有监督的方式，它先对训练数据进行降维，然后找出一个线性判别函数。

3.回归分析Regression Analysis

回归分析（regression analysis)是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。

越大越好差值的平方和 sum spuares total

4.马尔科夫系统

将来只与现在有关而与过去无关。

隐马尔科夫系统

状态不是直接可见的但是由它导致的结果是可见的，而且每个状态是以一定的概率导致出某种结果。

HMM中典型的马尔可夫问题

已知隐马尔科夫模型的参数（转移概率矩阵和发射概率矩阵），已知隐马尔科夫模型的参数（转移概率矩阵和发射概率矩阵）和输出序列，找出最有可能产生这种输出序列的状态序列。

已知隐马尔科夫模型的参数（转移概率矩阵和发射概率矩阵）和输出序列，找出最有可能产生这种输出序列的状态序列。

已知隐马尔科夫模型的参数（转移概率矩阵和发射概率矩阵），计算某一个输出序列发生的概率。

决策树模型

在沿着决策树从上到下遍历的过程中，在每个节点都会遇到一个问题，对每个节点上问题的不同回答导致不同的分支，最后会到达一个叶子节点。这个过程就是利用决策树进行分类的过程，利用几个变量（每个变量对应一个问题）来判断所属的类别（最后每个叶子会对应一个类别）。

Whatis Occam’s Razor?

如无必要，勿增实体

如果对于同一现象有两种不同的假说，我们应该采取比较简单的那一种

What is infor

信息熵是信息量的期望

i代表s的第i个取值

How to use information entropy in DT?

计算信息增益，选择使得信息增益最大的属性作为分类属性以使得分支数尽可能简单。

Whatis the main issue with information entropy?

倾向于选择有多个属性值的属性，一种极端的情况是某个包含n个数据点的数据集的某个属性也有n个属性值，如果用信息增益作为属性选择度量，就一定会选择这个属性，但是这种分类显然毫无意义。

Whyand how to do pruning in DT?

因为每一条自根节点到叶子节点的路径都对应一条规则，所以树的深度越大，其对应的规则越长就越难被人理解，还有过度拟合现象的存在，所以无论是从决策树的分类精度，还是从其规模以及可理解性角度考虑，对与决策树的剪枝是非常有必要的，需要通过剪枝（简化过程）来提高泛化能力

剪枝的两种方式：前剪枝和后剪枝

合并或联合两个叶节点，如果能引起令人满意的不纯度增长。

从叶节点往上回溯，比较剪掉该叶节点前后的损失函数的值，如果剪掉后，损失函数更小就剪掉

Howto handle continuous attributes in DT?

设置阈值将属性值分成几个区域

博客等级

码龄10年

62
原创

48
点赞

155
收藏

42
粉丝

关注

私信

热门文章

分类专栏

最新评论

调试神经网络的技巧
目标校测小白: 建议抄袭别人的作品要注明来源https://blog.csdn.net/mmmmmttttff/article/details/51218089?utm_medium=distribute.pc_relevant.none-task-blog-2~default~baidujs_utm_term~default-0.no_search_link&spm=1001.2101.3001.4242
机器学习基础知识整理
Jia_11: “组合”、“泛化”、“相关性”三类特征是特征添加的重要手段，请问这句话中描述的三个手段，分别是怎么操作的呢？
cnn 手写数字识别 mnist
小萝卜头____ 回复 sunlin2222: 同问~你会输入一个图片然后让识别出来是几吗？
包含min函数的栈
qq_37280054: 不用写main函数也可吗？
cnn 手写数字识别 mnist
sunlin2222: 最后的输出output layer：输出为10维向量是为什么？label怎样由1个数字转换为10维向量？

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。