机器学习
文章平均质量分 76
智元说车
这个作者很懒,什么都没留下…
展开
-
变分算法
注:本文中所有公式和思路来自于邹博先生的《机器学习升级版》,我只是为了加深记忆和理解写的本文。本文介绍的变分算法是机器学习中的参数估计算法,跟数学中的变分法是有一些不一样的。在搜索引擎中搜索变分算法一般都是数学中的变分法,机器学习的好像还真的很少。变分算法我觉得是机器学习算法中比较难的一个了,因为推导有很多,并且有一些想法是不太直观上被轻易接受或者说理解的,今天斗胆说一说。原创 2016-11-09 08:56:27 · 9091 阅读 · 1 评论 -
SVM-支持向量机
注:本文中所有公式和思路来自于邹博先生的《机器学习升级版》,我只是为了加深记忆和理解写的本文。我相信搞机器学习的同学应该没有人没听过SVM,但是能清清楚楚的把SVM说明白我想还是会有一点点小难度的,今天我也尝试着把这块介绍一下。SVM可以分为三种:线性可分支持向量机:硬间隔最大化 hard margin maximitation、硬间隔支持向量机线性支持向量机:软间原创 2016-11-17 07:38:16 · 2231 阅读 · 0 评论 -
CRF-条件随机场
注:本文中所有公式和思路来自于邹博先生的《机器学习升级版》,我只是为了加深记忆和理解写的本文。这次要分享的是模型是条件随机场模型,听起来就是不是十分的容易,不过也确实是这样子的,学习条件随机场之前个人觉得最好先学习HMM模型,因为条件随机场和HMM有很多共同的地方,比方说都是概率图模型、最基本的三个问题也是一模一样的(概率计算、学习问题、预测问题)。这里先给出一个条件随机场原创 2016-11-14 07:56:29 · 2659 阅读 · 0 评论 -
聚类之层次聚类与密度聚类
注:本文中所有公式和思路来自于邹博先生的《机器学习升级版》,我只是为了加深记忆和理解写的本文。讲密度聚类之前,想先介绍一个聚类的评价标准:轮廓系数(Silhouette)先抛出两个概念:簇内不相似度:计算样本i到同簇其他样本的平均距离ai,ai越小,说明i越应该被分到该类中,那么ai称为i的簇内不相似度计算簇内所有的样本的ai的均值叫簇C的簇不相似度。簇间不相似度:计算原创 2016-11-17 17:32:54 · 4368 阅读 · 1 评论 -
线性回归
注:本文中所有公式和思路来自于邹博先生的《机器学习升级版》,我只是为了加深记忆和理解写的本文。本文将跟大家介绍一下线性回归,直接步入主题。现在我们有一些关于房价的数据,根据房屋得大小居室来预测价钱:那么我们可以将第一个特征Living area看作x1,可以讲第二个特征bedrooms看作x2,Price为h(x),我们可以公式化得写成:其中讲x0设原创 2016-11-14 19:59:12 · 1131 阅读 · 0 评论 -
Logistic回归
注:本文中所有公式和思路来自于邹博先生的《机器学习升级版》,我只是为了加深记忆和理解写的本文。在上一篇文章中介绍了线性回归,当然了,不难看得出线性回归的标记y是连续的,所以是比较适合做回归,但是对于分类问题的话不是很合适,以前我也有个误区,一直以为回归是样本的回归,后来才明白,其实回归是只参数的回归,如果各位也有这个误区,一定要查阅资料搞清楚这一点。分类的问题y是离散的,也原创 2016-11-14 21:40:23 · 1350 阅读 · 0 评论 -
Softmax回归
注:本文中所有公式和思路来自于Andrew NG先生的《cs229-notes1》,我只是为了加深记忆和理解写的本文。本来线性回归不打算说Softmax回归,因为套用Logistic回归的那一套思路基本没有任何难度,昨晚翻了翻Andrew NG的machine learning的讲义,觉得说得挺实在也挺简单,原版为英文版,如果大家看起来不方便,这里不妨和大家分享一下。Log原创 2016-11-15 09:08:15 · 443 阅读 · 0 评论 -
PCA
注:本文中所有公式和思路来自于邹博先生的《机器学习升级版》,我只是为了加深记忆和理解写的本文。PCA往往应用在去噪、降维方面,在数据规模很大的时候,往往问题的复杂性就提高了,我们可以考虑将多个特征综合为少数几个代表性特征:即能够代表原始特征的绝大多数信息,组合后的特征又互相不相关,降低相关性,那么就是可以认为这些特征是主成分。对于n个特征的m个样本,将每个样本写成行向量,得原创 2016-11-18 16:53:25 · 612 阅读 · 0 评论 -
梯度下降算法
注:本文中所有公式和思路来自于邹博先生的《机器学习升级版》,我只是为了加深记忆和理解写的本文。梯度下降算法我个人认为是极其重要的的一种参数优化手段,因为很常用,也容易理解,不多废话,直接步入主题。我们在线性回归中,优化参数θ的时候,先是对目标函数求导来计算梯度:然后我们沿着梯度的方向下降(上升):走到这一步似乎问题已经完全解决了,但是学习率α怎么确定原创 2016-11-15 13:55:55 · 1161 阅读 · 0 评论 -
拟牛顿法
注:本文中所有公式和思路来自于邹博先生的《机器学习升级版》,我只是为了加深记忆和理解写的本文。上一篇文章中,介绍了沿着梯度下降的方法,其实我们不一定非要沿着梯度下降的。我们首先做个思考,我们都知道二阶导数反映了函数的凸凹性,二阶导数反映了一阶导数变化的大小,那么在搜索中我们可以考虑使用二阶导来进行修正:我们可以将f(x)在xk处Taylor展开:扔掉原创 2016-11-15 16:37:43 · 760 阅读 · 0 评论 -
朴素贝叶斯
注:本文中所有公式和思路来自于李航博士的《统计学习方法》一书,我只是为了加深记忆和理解写的本文。朴素贝叶斯(naive bayes)是基于贝叶斯定理和特征条件独立假设的分类器,对于给定的训练数据集,首先基于特征条件独立假设学习输入\输出的联合概率分布;然后基于此模型,输入x,利用贝叶斯定理求出最大后验概率y。朴素贝叶斯这个名字乍一看感觉蛮奇怪的,何为“朴素”呢?因为朴素贝叶原创 2016-11-03 14:07:46 · 1357 阅读 · 0 评论 -
聚类之K-means
注:本文中所有公式和思路来自于邹博先生的《机器学习升级版》,我只是为了加深记忆和理解写的本文。聚类是典型的无监督学习,聚类本质就是对大量的未知标记的数据集,按照数据内在的相似性将数据集划分为多个类别,使类别内的数据相似性较大,而类别间的相似度较小。本文将会介绍K-means算法以及改进。那么我们怎么来衡量数据见的相似度呢?闵可夫斯基距离Minkows原创 2016-11-17 15:57:02 · 4975 阅读 · 0 评论 -
聚类之谱聚类
谱聚类是一直让我很郁闷的一个聚类方法,因为光知道做法,不知道原理,这样用起来的时候真心很虚,就是很纳闷,为啥这么做就可以呢?谱聚类是利用相似矩阵或其他派生矩阵的1结构特征,将样本划分到不相交类别中,并使类内样本相似度很高,而类别间样本相似度较低的一类技术,是一种启发式的聚类算法。现在就介绍一下谱聚类的原理吧由于实体与实体之间的相互作用,产生了大量的复杂数据集,我原创 2016-11-18 11:01:00 · 3140 阅读 · 1 评论 -
推荐系统的粗浅认识
注:本文中所有公式和思路来自于邹博先生的《机器学习升级版》,我只是为了加深记忆和理解写的本文。说到推荐系统,可以毫不夸张的说,基本每个使用互联网的人多少都见到过,从购物网站到社区,可谓无孔不入啊。既然是推荐系统,那么它是凭什么把某一物品、文章等推荐给你的呢?说到这,就必须的谈到一个问题:距离的度量,因为只有找到跟用户喜好相似的才能推荐嘛。距离度量的方式有很多种,在我的一篇文原创 2016-11-18 12:56:38 · 720 阅读 · 0 评论 -
基于残差的提升树
注:本文中所有公式和思路来自于李航博士的《统计学习方法》一书,我只是为了加深记忆和理解写的本文。首先应该先介绍一下提升树,提升树模型采用了加法模型和前向分布算法,基于决策树的提升也就是提升树,也就是多个基函数累加得来,这里的基函数我们可以广泛的指代我们常用回归或者分类器而不仅仅是y=ax+b这种直观的函数,例如决策树、SVM等,因为我们给定一个样本x会输出对应的预测值y,所以可以将决策树、原创 2016-11-01 10:25:06 · 1582 阅读 · 1 评论 -
linux(ubuntu)下的caffe编译安装
0.关于caffe(by@寒小阳)caffe是深度学习在图像领域广泛使用的框架,其model zoo有大量的预训练好的模型提供使用。图像相关应用会大量使用到caffe。墙裂建议大家使用linux系统,原因如下。linux系统(大部分公司为CentOS或者Ubuntu),才是实际开发中用到的系统,提前熟悉一下命令行,对于实际应用和开发都很有必要。相对于Windows而言,li转载 2016-11-23 22:09:20 · 3797 阅读 · 0 评论 -
Bagging和随机森林
注:本文中所有公式和思路来自于邹博先生的《机器学习升级版》,我只是为了加深记忆和理解写的本文。本文其实是接着上一篇文章决策树来说的,将会谈到两个机器学习算法:Bagging和随机森林其实Bagging和随机森林的思想都是可以普适性的用在其他的分类器上的,思想其实都是可以通用的,只不过有的合适有的不合适而已,决策树就是一种比较合适用Bagging和随机森林来提升的分类器之一。原创 2016-11-16 19:35:42 · 3987 阅读 · 0 评论 -
决策树
注:本文中所有公式和思路来自于邹博先生的《机器学习升级版》,我只是为了加深记忆和理解写的本文。树是一种极其重要的数据结构,像二叉树、红黑树等等,本要介绍的这种树是机器学习中的一种树,用来做分类或者回归的决策树。上图就是两颗决策树,其中的每个内部结点表示在一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表着一种类别。决策树是以实例为基础的归纳学习,决策树学原创 2016-11-16 16:48:40 · 4047 阅读 · 0 评论 -
ICA
注:本文中所有公式和思路来自于邹博先生的《机器学习升级版》,我只是为了加深记忆和理解写的本文。我们首先说说ICA一般会应用图像降噪、人脸识别、遥感图像分类、去眼电、脑电图等方面,凡是带有隐变量的问题,都是可以尝试使用ICA来解决的。我们直接上一个盲源分离问题来说明这个ICA:假设现在有一n个人同时说话,经过了m个时刻,我们记录下信号源:如果按照时间来标记,我原创 2016-11-16 10:16:38 · 2616 阅读 · 0 评论 -
变分算法-应用
注:本文中所有公式和思路来自于邹博先生的《机器学习升级版》,我只是为了加深记忆和理解写的本文。上一篇文章算是比较详细的介绍了变分算法,本篇文章将会介绍一下一些变分框架在其他模型上的应用。变分贝叶斯:变分不光可以推测隐变量,还可以估计参数本身,我们可以使用平均场方法,将后验概率写成参数各自分布的乘积,既得到变分贝叶斯(Variational Bayesian, VB)原创 2016-11-09 12:59:39 · 2819 阅读 · 0 评论 -
采样之Gibbs算法
注:本文中所有公式和思路来自于邹博先生的《机器学习升级版》,我只是为了加深记忆和理解写的本文。原创 2016-11-08 08:18:01 · 2974 阅读 · 0 评论 -
采样之MCMC
注:本文中所有公式和思路来自于邹博先生的《机器学习升级版》,我只是为了加深记忆和理解写的本文。马尔科夫模型说到MCMC(Markov Chain Monte Carlo ),就必须要提一下MC(Markov Chain)模型,我们可以这么描述MC模型:描述:考虑某随机过程Π,它有n个状态,记第t时刻处于第i状态,它在t+1时刻的状态位于状态j的概率为P(i, j) = P(j原创 2016-11-07 21:38:42 · 3431 阅读 · 0 评论 -
采样之Metropolis Hastings算法
注:本文中所有公式和思路来自于邹博先生的《机器学习升级版》,我只是为了加深记忆和理解写的本文。Metropolis Hastings算法:假定t时刻Xt = xt,采取如下策略采样Xt +1在给定xt的条件分布g(x | xt)中采样一个值x*计算M-H率:则t+1时刻X的值Xt +1:最终得到的序列收敛于f(x)。说明:其中g(x)是我原创 2016-11-07 16:47:21 · 2257 阅读 · 1 评论 -
采样之拒绝采样
注:本文中所有公式和思路来自于邹博先生的《机器学习升级版》,我只是为了加深记忆和理解写的本文。第一次接触到采样这个词的时候我感觉别扭,因为觉得不是有现成的样本数据么,直接处理后喂给模型不就行了么干嘛要多此一举呢?其实我们可以这样来理解采样:采样时前提是我们已经确定一个系统(概率分布),但是不知道满足该分布背后的参数,然后我们根据这个概率分布从所有的样本中采样出n个样本,那么这n原创 2016-11-07 11:06:36 · 2575 阅读 · 0 评论 -
LDA-隐狄利克雷分布-主题模型
注:本文中所有公式和思路来自于邹博先生的《机器学习升级版》,我只是为了加深记忆和理解写的本文。原创 2016-11-04 10:24:03 · 8715 阅读 · 1 评论 -
概率图模型之贝叶斯网络
注:本文中所有公式和思路来自于邹博先生的《机器学习升级版》,我只是为了加深记忆和理解写的本文。概率图模型分为贝叶斯网络和马尔科夫网络,贝叶斯网络是有向图模型,马尔科夫网络是无向图模型(顺序演变),贝叶斯网络这一块知识我个人是学习了好多遍,看完之后虽说是明白但是却觉得很虚,我们耳熟能详的HMM、LDA都属于贝叶斯网络(有向图模型),条件随机场是马尔科夫网络(无向图模型)中的算法,后续也会原创 2016-11-04 08:37:37 · 10970 阅读 · 0 评论 -
AdaBoost算法
注:本文中所有公式和思路来自于李航博士的《统计学习方法》一书,我只是为了加深记忆和理解写的本文。开场直接套用《统计学习方法》中的一段话:提升方法有两个问题需要回答:一是在每一轮的学习中如何改变样本的权值,二是如何将弱分类器组合成一个强分类器。第一个问题我的理解就是每一轮学习之后,对于误分的样本在下一轮学习中给予更高的权重,更加关注。第二个问题的答案是对于分类误差小的分类器给予更高的权值,使原创 2016-11-01 21:08:58 · 761 阅读 · 0 评论 -
XGBoost细谈
注:本文中所有公式和思路来自于邹博先生的《机器学习升级版》,我只是为了加深记忆和理解写的本文。XGBoost是陈天奇先生提出的一种提升方法,较GBDT不同的是,XGBoost采用了二阶导的信息,不说废话,直接介绍推导过程。我们以CART树为例:首先我们设定目标函数为: 这其中yi为第i个样本标记值,y~(t-1)为第t-1棵树的预测原创 2016-11-01 16:22:40 · 3082 阅读 · 0 评论 -
GBDT-沿着梯度提升的决策树
注:本文中所有公式和思路来自于李航博士的《统计学习方法》一书,我只是为了加深记忆和理解写的本文。在上一篇文章中,介绍了基于残差的提升树,采用加法模型和前向分布算法,损失函数为平方损失,优化过程比较容易,但对于一般的损失函数,可能不会这么容易,因此提出了梯度提升的算法。利用的是最速下降法的近似方法,其关键是利用损失函数的负梯度在当前模型的值作为回归提升树中的残差近似值,拟合一棵决策树。原创 2016-11-01 11:17:43 · 818 阅读 · 0 评论 -
HMM之模型详解
注:本文中所有公式和思路来自于邹博先生的《机器学习升级版》,我只是为了加深记忆和理解写的本文。从本文到后边3篇文章都会介绍HMM(隐马尔科夫模型),也就是好多80后戏称的“韩梅梅”模型,HMM模型我们可以下面的图描述一下:HMM模型是关于时序的模型,描述由一个隐藏的马尔科夫链生成不可观测的状态随机序列,再由各个状态生成观测序列的过程。在上图中,z行就是不可观测的状态序列原创 2016-11-10 08:54:26 · 2540 阅读 · 0 评论 -
HMM之前向后向算法
注:本文中所有公式和思路来自于邹博先生的《机器学习升级版》,我只是为了加深记忆和理解写的本文。前文已经详细介绍了HMM模型的结构、参数等等,本文将介绍HMM的三个基本问题中的第一个:概率计算问题在说前向后向算法之前我们需要先讲一下概率计算的暴力求解是怎么做的(不会白讲的,后边会用到)暴力求解按照概率公式,列举所有可能的长度为T的状态序列I = {i1原创 2016-11-10 10:40:28 · 4636 阅读 · 1 评论 -
HMM之Baum-Welch算法
注:本文中所有公式和思路来自于邹博先生的《机器学习升级版》,我只是为了加深记忆和理解写的本文。前面介绍过了HHM模型结构和HMM基本问题中的概率计算问题,本文介绍HMM基本问题中的参数学习问题。如果训练数据包括观测序列和状态序列,则HMM的学习非常简单,是监督学习,如果只有观测序列的话,那么HMM的学习是需要使用EM算法的,是非监督学习。监督学习:根原创 2016-11-10 13:24:49 · 6501 阅读 · 0 评论 -
HMM之Viterbi算法
注:本文中所有公式和思路来自于邹博先生的《机器学习升级版》,我只是为了加深记忆和理解写的本文。我们在前边简单介绍过一个预测的近似方法,就是在每个时刻选择出最有可能出现的状态,从而得到一个状态序列:我们是这么计算的,处于时刻t的状态为qi的概率为:当然我们已经将这种方案否定了,因为这种情况在实际应用中很可能会不存在,所以我们要是要使用动态规划中的一种算法Viter原创 2016-11-10 14:39:08 · 2742 阅读 · 0 评论 -
最大熵模型
注:本文中所有公式和思路来自于邹博先生的《机器学习升级版》,我只是为了加深记忆和理解写的本文。最大熵模型可能好多朋友听过但是没有真正的看见过他的实际应用,其实最大熵模型和Logistic回归、Softmax回归是属于广义上的同种模型,一会我们推导就可以得出这个结论,另外最大熵模型和最大似然估计也是存在着有趣的联系,我们一步步来看。说到最大熵模型,首先就得说说什么是熵,说到熵原创 2016-11-16 07:47:04 · 1796 阅读 · 0 评论 -
EM算法---基于隐变量的参数估计
注:本文中所有公式和思路来自于李航博士的《统计学习方法》一书,我只是为了加深记忆和理解写的本文。】EM算法算是机器学习中有些难度的算法之一,也是非常重要的算法,曾经被誉为10大数据挖掘算法之一,从标题可以看出,EM专治带有隐变量的参数估计,我们熟悉的MLE(最大似然估计)一般会用于不含有隐变量的参数估计,应用场景不同。原创 2016-11-03 10:31:04 · 9177 阅读 · 0 评论