机器学习
文章平均质量分 91
血影雪梦
加油!FIGHT~~~~OH!!!!
展开
-
聚类 - 5 - 谱和谱聚类
本总结是是个人为防止遗忘而作,不得转载和商用。 谱 什么是谱? 先说说咱们口头上经常说的“某个人靠不靠谱”,一般,如果一个人遵守行为准则(即:此人言而有信、说到做到),那这个人就靠谱,反正这个人就不靠谱。 反映到坐标轴上的话,如果这条线代表行为准则: 如果一个人的行为不会偏离行为准则很多,那就说这个人“靠谱原创 2016-07-20 11:51:28 · 4620 阅读 · 10 评论 -
聚类 - 4 - 层次聚类、密度聚类(DBSCAN算法、密度最大值聚类)
本总结是是个人为防止遗忘而作,不得转载和商用。 层次聚类: 层次聚类的思想有两种:凝聚的层次聚类、分裂的层次聚类。 以有A, B, C, D,E, F, G这7个样本为例。凝聚的层次聚类1, 将每个对象作为一个簇,这时就有7个簇。2, 自底向上合并接近的簇,假设合并成了三个簇:AB,CDE,FG。3, 重复第二步直到数量达到规定原创 2016-07-20 11:49:47 · 17791 阅读 · 8 评论 -
聚类 - 3 - 轮廓系数
本总结是是个人为防止遗忘而作,不得转载和商用。 用聚类算法分好类后如何判断分的效果呢?方法就是轮廓系数(Silhouette)。 Silhouette系数是对聚类结果有效性的解释和验证,由Peter J. Rousseeuw于1986提出。 方法: 1,计算样本i到同簇其他样本的平均距离ai。a原创 2016-07-20 11:45:46 · 20305 阅读 · 1 评论 -
聚类 - 2 - K-means算法,K中值聚类
本总结是是个人为防止遗忘而作,不得转载和商用。 K-means算法,也被称为k-平均或k-均值,是一种广泛使用的聚类算法,或者成为其他聚类算法的基础。算法步骤 输入:样本S = X1, X2,..., Xm。 步骤: 1,选择初始的K个类别中心μ1,μ2,...,μk,k原创 2016-07-20 11:43:33 · 14578 阅读 · 1 评论 -
聚类 - 1 - 聚类介绍
本总结是是个人为防止遗忘而作,不得转载和商用。 很多算法,比如“线性回归、Logistics/softmax回归、SVM”等都是给出了样本xi和样本的类别yi,但是如果只给出样本xi,但是没有给出该样本的类别呢?聚类就是处理这类问题的,它的原理就是根据某种方式的相似性,把一些样本做一个归类。 PS:聚类是无监督的学习方式,刚才提到的线性回归、Logis原创 2016-07-20 11:41:07 · 2012 阅读 · 0 评论 -
SVM再次总结 - 3 - 线性支持向量机
说明:此篇是作者对“SVM”的第二次总结,因此可以算作对上次总结的查漏补缺以及更进一步的理解,所以很多在第一次总结中已经整理过的内容在本篇中将不再重复,如果你看的有些吃力,那建议你看下我的第一次总结: http://blog.csdn.net/xueyingxue001/article/details/51261397 百分百正确一定是最好的吗 先看一个情况,如原创 2016-07-19 14:33:49 · 636 阅读 · 0 评论 -
优化学习率 - 2 - 牛顿法、拟牛顿法
本章总结优化学习率的知识,而前置知识就是“线性回归、梯度下降算法”,因此如果这一章你看的云里雾里甚至连学习率是什么都不知道的话就需要先吧前置知识搞定了。其他说明 因为本总结的前置知识是“线性回归、梯度下降算法”,所以之后的内容都是以“求目标函数f(x)的极小值”为目的。 不过不用担心求极大值的话该怎么办,因为直接给f(x)加个负号就将问题转换为了求极小值问题了。原创 2016-07-13 15:02:01 · 1974 阅读 · 1 评论 -
优化学习率 - 1 - 回溯线性搜索和二次插值线性搜索
本章总结优化学习率的知识,而前置知识就是“线性回归、梯度下降算法”,因此如果这一章你看的云里雾里甚至连学习率是什么都不知道的话就需要先吧前置知识搞定了。其他说明 因为本总结的前置知识是“线性回归、梯度下降算法”,所以之后的内容都是以“求目标函数f(x)的极小值”为目的。 不过不用担心求极大值的话该怎么办,因为直接给f(x)加个负号就将问题转换为了求极原创 2016-07-13 14:53:46 · 4695 阅读 · 1 评论 -
奇异值分解SVD
关于奇异值分解的名字: 第一次看“奇异值分解”时真是超不知所以。不过它的英文名字是Singular Value Decompostion。而Signular是“突出的、奇特的、非凡的”的意思,于是用“优值分解”的这个名字好像更贴切些,而且“优值分解”这个名字的第一印象就比“奇异值分解”更让人容易接受。什么是奇异值分解: 假设A是一个m*n的实矩阵,那么一原创 2016-07-05 09:11:40 · 3684 阅读 · 0 评论 -
QR分解
关于如何求一个矩阵A的特征向量X和特征值λ,在上学时我们通常使用如下方法: AX =λX =λIX (I:单位阵) => |A -λI| = 0 => 求出λ =>代入AX =λX求出X 但在实际应用中这样没啥实际价值原创 2016-07-05 11:40:33 · 24752 阅读 · 3 评论 -
回归 - 线性回归、θ正则、伪逆
前提说明:因为在做此总结之前我已总结过“感知机算法”,而这里的很多知识(包括预备知识)和“感知机算法”中有重叠,所以本总结的知识不会像我做的其他教程那样对每个知识点都做很详细的解释,如果你已经掌握了“感知机算法”的相关知识,那本总结对你是没问题的,反之,你就需要了解下“感知机算法”了。回归问题 线性回归的一般形式如下:原创 2016-07-11 09:45:44 · 2650 阅读 · 2 评论 -
Logistic回归
前提:本章内容需要在你掌握了梯度下降算法的思想后才能很容易的弄懂,若梯度下降还不明白的话可以看我的总结的“感知机123”,这是感知机1的连接感知机。关于Logistic回归和Softmax回归Logistics回归、Softmax回归和线性回归虽然都是回归,但线性回归不太适合做分类,原因这里就不说了,网上一查一大堆,因此就需要用Logistics回归来处理二分类问题,用Softma原创 2016-07-12 09:21:00 · 2732 阅读 · 0 评论 -
ICA
ICA的著名应用是盲源分离,于是这里就以盲源分离为例子进行说明。 题目 假设n个人面前有n个话筒,然后这n个人说话时这n个话筒进行录音,这n个人说了m句话,最后从这n个话筒中收集一些录音,目标:从这些录音中分离出每个人的声音。 如下图所示: 下面开始解题。 题目整理 首先将信息原创 2016-07-18 11:21:46 · 3848 阅读 · 3 评论 -
聚类 - 6 - Canopy聚类
本总结是是个人为防止遗忘而作,不得转载和商用。 Canopy算法 虽然Canopy算法可以划归为聚类算法,但更多的可以使用Canopy算法做空间索引,其时空复杂度都很出色。算法描述 1,对于给定样本x1,x2, ..., xm,给定先验值 r1, r2,,(r1 2,x1, x2, ...,xm形成列表L;构造 xj(1≤j≤原创 2016-07-20 14:42:33 · 925 阅读 · 2 评论 -
EM算法再次总结
说明:此篇是作者对“EM”的第二次总结,因此可以算作对上次总结的查漏补缺以及更进一步的理解,所以很多在第一次总结中已经整理过的内容在本篇中将不再重复,如果你看的有些吃力,那建议你看下我的第一次总结: http://blog.csdn.net/xueyingxue001/article/details/51374100 EM算法处理的情况 EM算法需要处理样本中含原创 2016-07-25 09:41:28 · 14486 阅读 · 8 评论 -
推荐系统 - 1 - 相似度
本总结是是个人为防止遗忘而作,不得转载和商用。 相似度/距离计算方法总结 既然聚类思路的核心是度量样本间的内在相似性,那相似度/距离的计算方法是什么呢? 首先先给出个汇总图,然后在解释,汇总图如下: 解释: 闵可夫斯基距离/欧氏距离:原创 2016-07-21 17:23:33 · 2462 阅读 · 0 评论 -
条件随机场(CRF) - 4 - 学习方法和预测算法(维特比算法)
声明: 1,本篇为个人对《2012.李航.统计学习方法.pdf》的学习总结,不得用作商用,欢迎转载,但请注明出处(即:本帖地址)。 2,由于本人在学习初始时有很多数学知识都已忘记,所以为了弄懂其中的内容查阅了很多资料,所以里面应该会有引用其他帖子的小部分内容,如果原作者看到可以私信我,我会将您的帖子的地址付到下面。 3,如果有内容错误或不原创 2016-05-25 15:57:51 · 28959 阅读 · 25 评论 -
K 近邻算法
声明: 1,本篇为个人对《2012.李航.统计学习方法.pdf》的学习总结,不得用作商用。 2,由于本人在学习初始时有很多数学知识都已忘记,所以为了弄懂其中的内容查阅了很多资料,所以里面应该会有引用其他帖子的小部分内容,如果原作者看到可以私信我,我会将您的帖子的地址付到下面。 3,如果有内容错误或不准确欢迎大家指正。原创 2016-02-16 10:46:28 · 1778 阅读 · 1 评论 -
MFCC
本总结是是个人为防止遗忘而作,不得转载和商用。 MFCC的分析着眼于人儿的听觉特征,因为人耳所听到的声音的高低与声音的频率不成线性正比关系,而用Mel频率尺度则更符合人耳的听觉特征。 Mel频率尺度:它的值大体上对应于实际频率的对数分布关系,Mel频率与实际频率的具体关系如下: Mel(f)= 2595lg(1 + f原创 2016-11-16 10:15:07 · 7761 阅读 · 0 评论 -
隐马尔可夫(HMM)、前/后向算法、Viterbi算法 再次总结
本总结是是个人为防止遗忘而作,不得转载和商用。 说明:此篇是作者对“隐马尔可夫模型”的第二次总结,因此可以算作对上次总结的查漏补缺以及更进一步的理解,所以很多在第一次总结中已经整理过的内容在本篇中将不再重复,如果你看的有些吃力,那建议你看下我的第一次总结: http://blog.csdn.net/xueyingxue001/article/details/514原创 2016-09-01 10:00:13 · 55759 阅读 · 18 评论 -
LDA主题模型
本总结是是个人为防止遗忘而作,不得转载和商用。 在解释LDA之前需要先介绍些前置知识,然后一点点说明LDA,所以,如果某个前置知识你不明白,那个人建议你不要跳过,否则....否则随你喽~ PS:下面章节的关系是: LDA的DA是“Dirichleet分布”的缩写 Dirichleet分布是Beta分布推广到多维的情况原创 2016-09-01 09:37:30 · 2188 阅读 · 0 评论 -
提升方法 - 1 - Adaboost 算法
声明: 1,本篇为个人对《2012.李航.统计学习方法.pdf》的学习总结,不得用作商用,欢迎转载,但请注明出处(即:本帖地址)。 2,由于本人在学习初始时有很多数学知识都已忘记,所以为了弄懂其中的内容查阅了很多资料,所以里面应该会有引用其他帖子的小部分内容,如果原作者看到可以私信我,我会将您的帖子的地址付到下面。 3,如果有内容错误或不原创 2016-05-03 14:57:41 · 9324 阅读 · 0 评论 -
EM算法 - 2 - EM算法在高斯混合模型学习中的应用
声明: 1,本篇为个人对《2012.李航.统计学习方法.pdf》的学习总结,不得用作商用,欢迎转载,但请注明出处(即:本帖地址)。 2,由于本人在学习初始时有很多数学知识都已忘记,所以为了弄懂其中的内容查阅了很多资料,所以里面应该会有引用其他帖子的小部分内容,如果原作者看到可以私信我,我会将您的帖子的地址付到下面。 3,如果有内容错误或不原创 2016-05-11 14:23:03 · 8083 阅读 · 4 评论 -
采样
本总结是是个人为防止遗忘而作,不得转载和商用。 带拒绝的采样有时候我们会遇到这样的情况:目标函数的样本不好采样,比如: 假设我们的目标函数的概率密度函数是上图中圆,“在圆内均匀采样”这个要求稍微有点麻烦(这个还简单,如果更复杂的图形那就“给出一个点是落在目标图像内”就可能十分十分难办了),那这时怎么办?一个比较简单的方法见下图:原创 2016-09-01 09:44:19 · 793 阅读 · 0 评论 -
贝叶斯网络、拉普拉斯平滑
本总结是是个人为防止遗忘而作,不得转载和商用。 说明:前置知识是朴素贝叶斯,这个我以总结,地址是: http://blog.csdn.net/xueyingxue001/article/details/50680908 复习:一个贝叶斯的例子 啊,上去就说例子? 是啊,这个是再次总结,前置知识看我的上一篇总结,这里不再赘述。原创 2016-09-01 09:19:51 · 14270 阅读 · 5 评论 -
SVM再次总结 - 2 - 线性可分支持向量机
说明:此篇是作者对“SVM”的第二次总结,因此可以算作对上次总结的查漏补缺以及更进一步的理解,所以很多在第一次总结中已经整理过的内容在本篇中将不再重复,如果你看的有些吃力,那建议你看下我的第一次总结: http://blog.csdn.net/xueyingxue001/article/details/51261397 如何定位唯一的分隔超平面原创 2016-07-19 12:01:56 · 2410 阅读 · 0 评论 -
推荐系统 - 4 - LMF基于隐变量的推荐、PCA(主成分分析)
本总结是是个人为防止遗忘而作,不得转载和商用。 本节的前置知识是我总结的“推荐系统 - 1、2”。LMF 假设一个场景:假定Ben、Tom、John、Fred对6种商品进行了评价,评分越高代表对该商品越喜欢。0表示未评价,如下图: 左图是评价情况,右图是将左图写成矩阵A6*4的样子。原创 2016-07-21 17:33:03 · 4877 阅读 · 0 评论 -
推荐系统 - 3 - 协同过滤算法、随机游走算法
本总结是是个人为防止遗忘而作,不得转载和商用。 本节的前置知识是我总结的“推荐系统 - 1、2”。协同过滤算法 基于用户行为的数据而设计的推荐算法被称为协同过滤算法(Collaborative Filtering, CF)。 什么意思? “推荐系统 - 1 - 相似度”和本总结合在一起就是在做协同过滤,即:原创 2016-07-21 17:27:15 · 11639 阅读 · 0 评论 -
推荐系统 - 2 - 离线指标和其他指标
本总结是是个人为防止遗忘而作,不得转载和商用。 推荐系统的前置知识之一“相似度的判断”见总结“推荐系统 - 1 - 相似度”。评价推荐系统的首要离线指标 通过将单个用户的准确率(或召回率)做累加,即得到整个推荐系统的准确率(或召回率),该离线指标常常用于比较各个推荐系统之间的优劣。 如下:R(u)是给用户u作出的推荐列表,而T(原创 2016-07-21 17:26:01 · 2677 阅读 · 0 评论 -
最大熵模型(第二次总结)
说明:此篇是作者对“最大熵模型”的第二次总结,因此可以算作对上次总结的查漏补缺以及更进一步的理解,所以很多在第一次总结中已经整理过的内容在本篇中将不再重复,如果你看的有些吃力,那建议你看下我的第一次总结: http://blog.csdn.net/xueyingxue001/article/details/50773796信息量: 某事件x的信息量的式子为原创 2016-07-18 11:31:47 · 2429 阅读 · 0 评论 -
SVM再次总结 - 1 - 准备知识
说明:此篇是作者对“SVM”的第二次总结,因此可以算作对上次总结的查漏补缺以及更进一步的理解,所以很多在第一次总结中已经整理过的内容在本篇中将不再重复,如果你看的有些吃力,那建议你看下我的第一次总结: http://blog.csdn.net/xueyingxue001/article/details/51261397 线性可分(硬间隔最大化)对于两类数据,有时我原创 2016-07-19 11:53:55 · 509 阅读 · 0 评论 -
SVM再次总结 - 4 - 非线性支持向量机
说明:此篇是作者对“SVM”的第二次总结,因此可以算作对上次总结的查漏补缺以及更进一步的理解,所以很多在第一次总结中已经整理过的内容在本篇中将不再重复,如果你看的有些吃力,那建议你看下我的第一次总结: http://blog.csdn.net/xueyingxue001/article/details/51261397 核函数咋来的 现在已经知道了,对于线性可分原创 2016-07-19 14:36:22 · 1517 阅读 · 0 评论 -
支持向量机 - 5 - SMO算法
声明: 1,本篇为个人对《2012.李航.统计学习方法.pdf》的学习总结,不得用作商用,欢迎转载,但请注明出处(即:本帖地址)。 2,由于本人在学习初始时有很多数学知识都已忘记,所以为了弄懂其中的内容查阅了很多资料,所以里面应该会有引用其他帖子的小部分内容,如果原作者看到可以私信我,我会将您的帖子的地址付到下面。 3,如果有原创 2016-04-27 15:45:07 · 910 阅读 · 0 评论 -
支持向量机 - 4 - 非线性支持向量机与核函数
声明: 1,本篇为个人对《2012.李航.统计学习方法.pdf》的学习总结,不得用作商用,欢迎转载,但请注明出处(即:本帖地址)。 2,由于本人在学习初始时有很多数学知识都已忘记,所以为了弄懂其中的内容查阅了很多资料,所以里面应该会有引用其他帖子的小部分内容,如果原作者看到可以私信我,我会将您的帖子的地址付到下面。 3,如果有内容错误或不原创 2016-04-27 15:39:14 · 1724 阅读 · 0 评论 -
支持向量机 - 3 - 线性支持向量机与软间隔最大化
声明: 1,本篇为个人对《2012.李航.统计学习方法.pdf》的学习总结,不得用作商用,欢迎转载,但请注明出处(即:本帖地址)。 2,由于本人在学习初始时有很多数学知识都已忘记,所以为了弄懂其中的内容查阅了很多资料,所以里面应该会有引用其他帖子的小部分内容,如果原作者看到可以私信我,我会将您的帖子的地址付到下面。 3,如果有原创 2016-04-27 15:35:37 · 1454 阅读 · 0 评论 -
线性回归 -- 最小二乘法
前提提要: 当时在看线性回归时突然被一句话给弄蒙了:当偏差的平方和最小时,该模型函数就是最优的。其实主要疑惑“为什么取平方和最小”,后来虽然接受了这个设定而继续往下看而知道了这是最小二乘法,可“为什么取平方和最小”这个一直让我疑惑(搜到的所有博文、百科等全都没解释这个),直到从头高数复习时在第九章看到了“最小二乘法”才得以明白,于是现总结如下。 PS:原来这原创 2016-04-11 11:54:58 · 982 阅读 · 0 评论 -
拉格朗日乘数法
前言 忘了哪个算法了(当时还没有回过头复习高数),里面在推导时上去来一句:这里引用拉格朗日乘子。当时我心中的羊驼就开始奔腾,我特,拉格朗日乘子是啥?为啥引用它?于是开始各种查资料,但没有一个能让我清清楚楚的明白的,直到之后回过头复习高数。 拉格朗日乘数法 首先进行三点说明: 1,拉格朗日乘子是拉格朗日乘数法中的原创 2016-04-11 11:52:09 · 4975 阅读 · 0 评论 -
朴素贝叶斯
声明: 1,本篇为个人对《2012.李航.统计学习方法.pdf》的学习总结,不得用作商用,欢迎转载,但请注明出处(即:本帖地址)。 2,由于本人在学习初始时有很多数学知识都已忘记,所以为了弄懂其中的内容查阅了很多资料,所以里面应该会有引用其他帖子的小部分内容,如果原作者看到可以私信我,我会将您的帖子的地址付到下面。 3,如果有内容错误或不原创 2016-02-17 15:51:34 · 2539 阅读 · 10 评论 -
逻辑斯蒂回归3 -- 最大熵模型之改进的迭代尺度法(IIS)
声明: 1,本篇为个人对《2012.李航.统计学习方法.pdf》的学习总结,不得用作商用,欢迎转载,但请注明出处(即:本帖地址)。 2,由于本人在学习初始时有很多数学知识都已忘记,所以为了弄懂其中的内容查阅了很多资料,所以里面应该会有引用其他帖子的小部分内容,如果原作者看到可以私信我,我会将您的帖子的地址付到下面。 3,如果有内容错误或不原创 2016-03-01 17:01:05 · 3978 阅读 · 3 评论 -
逻辑斯蒂回归2 -- 最大熵模型概念
声明: 1,本篇为个人对《2012.李航.统计学习方法.pdf》的学习总结,不得用作商用,欢迎转载,但请注明出处(即:本帖地址)。 2,由于本人在学习初始时有很多数学知识都已忘记,所以为了弄懂其中的内容查阅了很多资料,所以里面应该会有引用其他帖子的小部分内容,如果原作者看到可以私信我,我会将您的帖子的地址付到下面。 3,如果有内容错误或不原创 2016-03-01 16:52:12 · 2428 阅读 · 1 评论