机器学习
Be-real
VV:dpt521520
展开
-
机器学习:特征编码
1. 特征编码的必要性当拿到的数据比较脏乱,带有各种非数字特殊符号,如中文。而实际上机器学习模型需要的数据是数字型的,因为只有数字类型才能进行计算。因此,对于各种特殊的特征值,都需要对其进行相应的编码,也是量化的过程。2. 特征编码的类型2.1 分类型特征的编码方式对于分类型数据的编码,通常会使用两种方式来实现,分别是:one-hot encoding 和 label-encoding。下面我们先介绍一下这两种编码2.1.1 one-hot encoding独热编码one-hot encodin原创 2020-10-19 19:50:29 · 2172 阅读 · 1 评论 -
机器学习:Kernel PCA核主成分分析
1. kernel PCA 概述核主成分分析(Kernelized PCA,KPCA)利用核技巧将d维线性不可分的输入空间映射到线性可分的高维特征空间中,然后对特征空间进行PCA降维,将维度降到d′ 维,并利用核技巧简化计算。也就是一个**先升维后降维【数据先通过核函数(kernel function)转换成一个新空间,也就是升维过程,然后再用PCA进行降维处理】**的过程,这里的维度满足d′<d<D线性降维方法假设从高维空间到低维空间的函数映射是线性的,然而在有些时候,高维空间是线性不可原创 2020-07-12 17:59:02 · 7423 阅读 · 0 评论 -
机器学习:均值漂移(Mean Shift)详细解释
1. 均值漂移的基本概念Mean Shift算法和k-means相似,都是一个迭代的过程,即先算出当前点的偏移均值,将该点移动到该偏移均值,以此为新的起始点,继续移动,直到满足最终的条件。(1)设想在一个有N个样本点的特征空间,初始确定一个中心点center;(2)计算在设置的半径为D的圆形空间内所有的点(xi)与中心点center的向量;(3)计算整个圆形空间内所有向量的平均值,得到一个偏移均值(4)将中心点center移动到偏移均值位置;(5)重复移动,直到满足一定条件结束。2. 均值漂原创 2020-07-05 11:13:43 · 22151 阅读 · 3 评论 -
机器学习:流形学习Manifold Learning之LLE(局部线性嵌入)
流形学习被认为属于非线性降维的一个分支。1. 基本概念流形(manifold)是一般的几何对象的总称。比如人,有中国人、美国人等等;流形就包括各种维数的曲线曲面等。和一般的降维分析一样,流形学习把一组在高维空间中的数据在低维空间中重新表示。和以往方法不同的是,在流形学习中有一个假设,就是所处理的数据采样于一个潜在的流形上,或是说对于这组数据存在一个潜在的流形。不同的方法,对于流形性质的要求各不相同,这也就产生了在流形假设下的各种不同性质的假设,比如在Laplacian Eigenmaps(这是个啥?原创 2020-07-05 09:20:35 · 2071 阅读 · 0 评论 -
机器学习:数据预处理之正则化
机器学习中几乎都可以看到损失函数后面会添加一个额外项,常用的额外项一般有两种,一般英文称作L1-norm 和 L2 -norm,中文称作 L1正则化 和 L2正则化,或者 L1范数 和 L2范数L1正则化和L2正则化可以看做是损失函数的惩罚项。所谓『惩罚』是指对损失函数中的某些参数做一些限制。对于线性回归模型,使用L1正则化的模型建叫做Lasso回归,使用L2正则化的模型叫做Ridge回归(岭回归)。下图是Python中Lasso回归的损失函数,式中加号后面一项α∣∣w∣∣1, 即为L1正则化项一般原创 2020-06-28 23:38:49 · 1294 阅读 · 0 评论 -
机器学习:特征提取之LDA
1. LDA的基本思想LDA基本思想:给定带有标签的训练样本集,设法将样本投影到一条直线上,使得同类样本的投影点尽可能近,异类样本的投影点尽可能远。如果是进行分类,将新样本投影到同样的这条直线上,根据投影点的位置来确定新样本的类别。将高维的模式样本投影到最佳鉴别矢量空间,以达到抽取分类信息和压缩特征空间维数的效果,投影后保证模式样本在新的子空间有最大的类间距离和最小的类内距离,即模式在该空间中有最佳的可分离性举个例子,上图给出了两种不同的投影方式,直观上来看右图更好。因为右图中蓝色和红色数据较为集中原创 2020-06-25 19:09:25 · 4835 阅读 · 0 评论 -
机器学习:特征提取之ICA(独立成分分析)
1. ICA概念先描述一下线性方程:假如有n个人在一个房间说话,在这个房间的不同位置摆放了n个声音接收器,每个接收器在任何时刻会同时采集到n个人说话的重叠声音信号。因为每个接收器和每个人的距离不同,所以每个接收器接收到的声音信号的重叠情况也不同。在具体时刻t,从n个接收器接采集的一组声音数据(一个接收器得到一个数据,所以一个样本中有n个数据),然后收集m个时刻的样本数据,如何从这m个样本集分离出n个说话者各自的声音呢?令:n = 2,有两个说话的人,两个声音接收器,m = 2,采集t和时刻的声音信号原创 2020-06-25 13:36:01 · 5087 阅读 · 1 评论