机器学习导论学习笔记

思路
1
2
3
4
5
6
7
1nn-knn-加权knn-感知机-线性svm-非线性svm
1nn受噪声影响大
knn无法考虑到点与点之间的关系,没有考虑距离
加权knn无法学习,不能划分决策面
感知机无法寻找出较优的决策面
线性svm无法解决线性不可分情况
非线性svm中的kernel 选择波动性较大,无法自动学习

发展史

1
2
感知机,不能解决非线性问题
BP算法,多层深度网络复杂度过高,梯度爆炸或者梯度消失

分类

分类器
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
1nn 最近邻居分类器 噪声敏感 训练数据要大
knn 最大投票,距离为k的范围内哪一类最多,分为哪一类
没有考虑距离,存储数据限制不可能完备,人为描述特征重要性的限制

分类器性能评价方法
准确性,混淆矩阵
假阳性/假阴性 正常人<->病人

显著性测试
标签集=训练集+验证集(小部分,划分模型参数
holdout method
标签集=训练集+测试集,衡量一个算法统计意义上的好坏
进行k次,取平均

交叉验证

规范化
对于不同的尺度范围问题进行同等加权
SVM[支持向量机]
1
2
3
4
5
6
7
8
线性SVM:
给定x,y,建立映射f(x)=y,对应新的x,可以预测对应的y
神经元突触可变的连接方式为神经元建模提供理论支持
Wx=y,找到W,使得某个标签属于同一类,不是这个标签的属于另外一类

随机初始化->输入->输出

非线性svm,将线性不可分空间升维,通过投影函数,多维空间进行线性分解

降维

PCA[最大组成成分分析]
1
2
3
4
5
6
7
8
9
10
11
12
13
14
无监督单空间学习
降维:去除冗余
pca:最大组成成分分析
选择维度:降维,选择data point:选择比较重要的data point,可以表征整个数据集
component:正交基
principle:选择k个线性不相关的基,k个基即principle

冗余可通过相关性表示
方差:我们需要保证降维后的数据与原数据的偏离程度小,可以用方差表征
对角线元素:方差,数据和数据中心的偏离程度
非对角线元素:协方差,data point之间的相关程度
尽量去掉冗余,使得冗余度最小,即尽量最大化方差,数据散度尽量大

损失小的冗余度高,降维本身是减少冗余度,如果损失小,代表数据本身是很密集的,可以降低的冗余很少,冗余度高
CCA[典型相关性分析]
1
2
3
4
5
6
7
弱监督多空间学习
canonial correlation
同时寻找多个子空间的基
如果多个子空间,我们预设子空间之间是具有相关性的,img与text
我们要使降维后的空间尽可能相关,可以max内积,或者min cos距离
投影空间需要规范化,将不同尺度的子空间放在同一水平
多个子空间,则两两相加
LDA[线性判别分析]
1
2
3
4
5
强监督多空间学习
Linear Discriminant Analysis
基于数据的潜在结构降低数据维度
原则:同类接近,不同远离
最小化类内距,最大化类间距.
LLE[局部线性嵌入]
1
2
3
4
5
6
7
8
9
locally linear embedding
无监督学习

流形:数据向各个方向流出度量生成的形状
高维数据本质上是一个低维流形

找每个data point的k个邻居,可以欧式距离:高维数据局部是欧式的,约束使得方程唯一解
利用找到的邻居重构每个data point,线性重构关系在线性空间(欧式空间)不变
利用线性重构关系W,找到低维下的表示
LE[拉普拉斯特征映射]
1
2
3
4
5
6
7
8
9
10
11
12
13
Laplacian Eigenmap
相互间有关系的点(在图中相连的点)在降维后的空间中尽可能的靠近,从而在降维后仍能保持原有的数据结构

拉普拉斯矩阵被定义为:L=D-W
其中D为图的度矩阵,W为图的邻接矩阵

1.构建图
将所有的点构建成一个图,方法比如KNN
2.确定权重,确定点与点之间的权重大小,例如选用热核函数来确定
可选的简化设定是Wij=1如果点i,j相连,否则Wij=0。
3.特征映射
计算拉普拉斯矩阵L的特征向量与特征值:Ly=λDy
使用最小的m个非零特征值对应的特征向量作为降维后的结果输出。

1.复杂度过高

2.不能处理新的data point

NPE[邻域保持嵌入]
1
Neighborhood Preserving Embedding
LPP[局部保留投影]
1
2
3
Locality Preserving Projections

LPP被定义在空间的任何一点。与之对比的是,ISOMAP,LLE,LE等算法都只能用于训练数据上,而对于新的测试数据却并没有一个比较好的映射。

聚类

1
给出一个数据集,利用数据间的相似性,划分到不同cluster,不用标签
层次聚类方法
1
2
自下而上,最近合并,合并到想要的cluster,衡量权值,中值,min,max....
自上而下,划分cluster
k-means
1
2
3
4
5
6
7
k-means clustering学习k个聚类中心,划分给不同的cluster,对空间k个区域采样
划分cluster
得到每个点的class
最小化类内距,最大化类间距
迭代计算调整center直到收敛,局部最优

随机种子选择次数过多
k-medois
1
把均值换成中值
E-M
1
2
3
优化算法
e期望,m最大化
对于k-means,e就是均值,m就是迭代计算
MOG[高斯混合模型]
1
2
3
4
5
6
7
8
9
10
Mixture of Gaussian
连续域聚类
混合高斯模型:可以从多个高斯模型线性加权得到
X是一个混合分布
随机从s选择一个分布
从分布采样x

初始化多个高斯模型(类似于k个cluster
更新高斯模型
多次迭代优化
谱聚类[spectral clustering]
1
2
3
4
5
6
解决非线性聚类

流形学习角度
拉普拉斯降维映射+k-means

图分割角度
博客
32132
07-14 361
07-12 294
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值