机器学习导论学习笔记-CSDN博客

本文链接：https://blog.csdn.net/cpongo3/article/details/96424967

思路

1nn-knn-加权knn-感知机-线性svm-非线性svm
1nn受噪声影响大
knn无法考虑到点与点之间的关系,没有考虑距离 
加权knn无法学习,不能划分决策面
感知机无法寻找出较优的决策面
线性svm无法解决线性不可分情况
非线性svm中的kernel 选择波动性较大,无法自动学习

发展史

1 2	感知机,不能解决非线性问题 BP算法,多层深度网络复杂度过高,梯度爆炸或者梯度消失

分类

分类器

1nn 最近邻居分类器 噪声敏感 训练数据要大
knn 最大投票,距离为k的范围内哪一类最多,分为哪一类
没有考虑距离,存储数据限制不可能完备,人为描述特征重要性的限制

分类器性能评价方法
准确性,混淆矩阵
假阳性/假阴性 正常人<->病人

显著性测试
标签集=训练集+验证集(小部分,划分模型参数
holdout method
标签集=训练集+测试集,衡量一个算法统计意义上的好坏
进行k次,取平均

交叉验证

规范化
对于不同的尺度范围问题进行同等加权

SVM[支持向量机]

线性SVM:
给定x,y,建立映射f(x)=y,对应新的x,可以预测对应的y
神经元突触可变的连接方式为神经元建模提供理论支持
Wx=y,找到W,使得某个标签属于同一类,不是这个标签的属于另外一类
 
随机初始化->输入->输出

非线性svm,将线性不可分空间升维,通过投影函数,多维空间进行线性分解

降维

PCA[最大组成成分分析]

无监督单空间学习
降维:去除冗余
pca:最大组成成分分析
选择维度:降维,选择data point:选择比较重要的data point,可以表征整个数据集
component:正交基
principle:选择k个线性不相关的基,k个基即principle

冗余可通过相关性表示
方差:我们需要保证降维后的数据与原数据的偏离程度小,可以用方差表征
对角线元素:方差,数据和数据中心的偏离程度
非对角线元素:协方差,data point之间的相关程度
尽量去掉冗余,使得冗余度最小,即尽量最大化方差,数据散度尽量大

损失小的冗余度高,降维本身是减少冗余度,如果损失小,代表数据本身是很密集的,可以降低的冗余很少,冗余度高

CCA[典型相关性分析]

弱监督多空间学习
canonial correlation
同时寻找多个子空间的基
如果多个子空间,我们预设子空间之间是具有相关性的,img与text
我们要使降维后的空间尽可能相关,可以max内积,或者min cos距离
投影空间需要规范化,将不同尺度的子空间放在同一水平
多个子空间,则两两相加

LDA[线性判别分析]

强监督多空间学习
Linear Discriminant Analysis
基于数据的潜在结构降低数据维度
原则:同类接近,不同远离
最小化类内距,最大化类间距.

LLE[局部线性嵌入]

locally linear embedding
无监督学习

流形:数据向各个方向流出度量生成的形状
高维数据本质上是一个低维流形

找每个data point的k个邻居,可以欧式距离:高维数据局部是欧式的,约束使得方程唯一解
利用找到的邻居重构每个data point,线性重构关系在线性空间(欧式空间)不变
利用线性重构关系W,找到低维下的表示

LE[拉普拉斯特征映射]

Laplacian Eigenmap
相互间有关系的点（在图中相连的点）在降维后的空间中尽可能的靠近,从而在降维后仍能保持原有的数据结构

拉普拉斯矩阵被定义为:L=D-W
其中D为图的度矩阵，W为图的邻接矩阵

1.构建图
将所有的点构建成一个图,方法比如KNN
2.确定权重,确定点与点之间的权重大小，例如选用热核函数来确定
可选的简化设定是Wij=1如果点i，j相连，否则Wij=0。
3.特征映射
计算拉普拉斯矩阵L的特征向量与特征值：Ly=λDy
使用最小的m个非零特征值对应的特征向量作为降维后的结果输出。

1.复杂度过高

2.不能处理新的data point

NPE[邻域保持嵌入]

1	Neighborhood Preserving Embedding

LPP[局部保留投影]

1
2
3

Locality Preserving Projections

LPP被定义在空间的任何一点。与之对比的是，ISOMAP，LLE，LE等算法都只能用于训练数据上，而对于新的测试数据却并没有一个比较好的映射。

聚类

1	给出一个数据集,利用数据间的相似性,划分到不同cluster,不用标签

层次聚类方法

1 2	自下而上,最近合并,合并到想要的cluster,衡量权值,中值,min,max.... 自上而下,划分cluster

k-means

k-means clustering学习k个聚类中心,划分给不同的cluster,对空间k个区域采样
划分cluster
得到每个点的class
最小化类内距,最大化类间距
迭代计算调整center直到收敛,局部最优

随机种子选择次数过多

k-medois

把均值换成中值

E-M

1
2
3

优化算法
e期望,m最大化
对于k-means,e就是均值,m就是迭代计算

MOG[高斯混合模型]

Mixture of Gaussian
连续域聚类
混合高斯模型:可以从多个高斯模型线性加权得到
X是一个混合分布
随机从s选择一个分布
从分布采样x

初始化多个高斯模型(类似于k个cluster
更新高斯模型
多次迭代优化

谱聚类[spectral clustering]

解决非线性聚类

流形学习角度
拉普拉斯降维映射+k-means

图分割角度