![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习与高维信息检索
文章平均质量分 93
Stan Fu
这个作者很懒,什么都没留下…
展开
-
机器学习与高维信息检索 - Note 8 - 支持向量机(Support Vector Machines)
支持向量机背后的想法是非常简单的。在最简单的情况下,我们假设两个类的样本可以线性分离,也就是说,我们假设存在一个可以分离两个类的二维仿射超平面。SVM是有监督的学习算法,在给定两类的训练样本时,它可以找到 "最佳 "分离超平面。一旦找到它,就很容易对新的数据点进行分类。根据传入的新数据点位于超平面的哪一侧,它被分配到相应的类别。原创 2022-02-16 05:53:57 · 271 阅读 · 1 评论 -
机器学习与高维信息检索 - Note 7 - 核主成分分析(Kernel Principal Component Analysis,K-PCA)
标准PCA通过将观察到的数据投射到一个线性子空间来降低其维度。选择投影的方式是使以平方的标准欧氏准则衡量的误差最小,这也可以解释为减少白高斯噪声的一种方式。一个非常重要的应用是将PCA作为分类的预处理,因为分类器在减少噪声的特征空间中表现更好。标准PCA的主要缺点是,它严重依赖数据的近似线性结构。在许多应用中,这是一个过于严格的假设。核PCA(K-PCA)是标准PCA的一个扩展,它没有这些缺点。K-PCA的关键思想是,它隐含地假设存在一个非线性映射...原创 2022-02-06 19:43:01 · 559 阅读 · 0 评论 -
机器学习与高维信息检索 - Note 6 - 核, 核方法与核函数(Kernels and the Kernel Trick)
到目前为止,我们所讨论的机器学习算法的成功都依赖于对输入数据分布的假设。例如,PCA的效果越好,数据围绕线性子空间分布。或者在线性判别分析中,我们假设类的高斯分布,甚至有相同的协方差矩阵。为了更好地考虑输入数据的其他更复杂的分布,扩展方法的一种方式是采用所谓的核方法。它允许概括所有基本上只有标准内积作为输入数据的方法。在机器学习中,核是一类用于模式分析的算法,其最著名的成员是支持向量机(SVM)。模式分析的一般任务 是发现和研究数据集中的一般关系类型(例如集群、排名、主成分、相关性、分类)。原创 2022-01-27 01:48:51 · 1431 阅读 · 0 评论 -
机器学习与高维信息检索 - Note 5 - (深度)前馈神经网络((Deep) Feedforward Neural Networks)及基于CVXOPT的相关实例
粗略地说,前馈神经网络(FNN)是一种特殊的函数类,在最小化任何一种预期损失方面都非常强大,但代价是要训练大量的参数。更确切地说,考虑一个输入变量X∈Rp 和一个函数类F,我们想从中找出一个函数f,使某个损失函数L的期望值最小。例如,考虑简单的损失函数...原创 2022-01-09 07:46:49 · 304 阅读 · 0 评论 -
机器学习与高维信息检索 - Note 4 - 主成分分析及其现代解释(Principal Component Analysis, PCA)及相关实例
在所有无监督降维技术中,主成分分析(PCA)是最著名的一种。我们所说的无监督学习方法,是指在我们采用学习算法之前,数据不需要被标记(由监督者)。PCA的成功是由于它的简单性和在许多现实世界数据分析任务中的广泛适用性。这可能是它有许多别名的原因,即离散的Karhunen-Loéve变换,Hotelling变换或适当的正交分解。它的核心假设是原始数据的分布集中在某个低维平面上,或者说,数据中的大部分方差可以通过其在这个平面上的投影方差来描述。原创 2022-01-03 01:35:55 · 1155 阅读 · 0 评论 -
机器学习与高维信息检索 - Note 3 - 逻辑回归(Logistic Regression)及相关实例
在谈论逻辑回归时,一般的设定是,我们有数据点X和输出变量Y。这是一个所谓的二元分类问题。其任务是在预定的函数类别F中找到函数f,使f能够尽可能好地预测Y。一个常用的损失函数用来衡量预测函数的 "准确性",其动机是错误分类的数量,即如果f(x)的符号与真实输出Y的符号不一致。原创 2022-01-03 01:34:31 · 1182 阅读 · 0 评论 -
机器学习与高维信息检索 - Note 2 - 统计决策和机器学习
基本问题是,对于随机变量X中的某些观测,我们想获得随机变量Y的 "最可能 "值。为简单起见,我们假设Y在R中的实现。我们进一步假设得到的联合概率密度p已经给出....原创 2021-12-31 21:19:35 · 676 阅读 · 0 评论 -
机器学习与高维信息检索 - Note 1 - 信息检索、机器学习与随机变量
从高维数据中提取信息的问题与降维问题密不可分,也就是说,从典型的高维观察中提取一些合理的特征的问题。例如,考虑一下人类在图像上识别人脸的能力。该图像被视为一个高维向量,例如 800×600 的像素值,肯定不能作为原始像素数据存储在人类的大脑中。相反,我们必须提取一些特征,例如眼睛之间的相对距离,鼻子的长度,以及更抽象的不同脸部区域的相互作用,作为一个整体。储存和回忆这几个抽象特征的能力使我们有可能识别出一张脸,而不受不同的背景...原创 2021-12-21 17:13:22 · 693 阅读 · 0 评论