机器学习
文章平均质量分 83
江湖小妞
Life is like a box of chocolate, you never know what you are going to get.
展开
-
样本间距离计算方法总结
样本间相似度/距离计算方法总结标签(空格分隔): 机器学习闵可夫斯基距离Minkowski距离,也成欧式距离,计算方法为:dist(X,Y)=(∑ni=1|xi−yi|p)1p\begin{equation} dist(X, Y) = (\sum_{i=1}^{n}|x_{i}-y_{i}|^{p})^{\frac{1}{p}} \end{equation} 这是我们最常用的一种距离度量方原创 2016-06-29 21:56:06 · 6649 阅读 · 0 评论 -
再论最小二乘
标签(空格分隔): 机器学习前面有写过一篇关于最小二乘与最大似然估计的博客点我点我,该博客从二者的本质不同进行了分析(一个是为了最好的拟合数据,一个是通过概率分布使时间最可能发生)本篇博客将从目标函数求驻点及梯度下降的角度比较二者的不同。最小二乘目标函数目标函数实际是从拟合中残差服从高斯分布推导出来的,但实际我们可以直接使用: J(θ)=12(hθ(x(i))−y(i))2=12(Xθ−y)T(X原创 2016-09-19 17:06:42 · 301 阅读 · 0 评论 -
再论EM算法的收敛性和K-Means的收敛性
标签(空格分隔): 机器学习(最近被一波波的笔试+面试淹没了,但是在有两次面试时被问到了同一个问题:K-Means算法的收敛性。在网上查阅了很多资料,并没有看到很清晰的解释,所以希望可以从K-Means与EM算法的关系,以及EM算法本身的收敛性证明中找到蛛丝马迹,下次不要再掉坑啊。。)EM算法的收敛性1.通过极大似然估计建立目标函数:l(θ)=∑mi=1log p(x;θ)=∑mi=1log∑zp(原创 2016-09-19 14:47:36 · 11081 阅读 · 0 评论 -
L0/L1/L2范数的联系与区别
标签(空格分隔): 机器学习最近快被各大公司的笔试题淹没了,其中有一道题是从贝叶斯先验,优化等各个方面比较L0、L1、L2范数的联系与区别。L0范数L0范数表示向量中非零元素的个数: ||x||0=#(i) with xi≠0||x||_{0} = \#(i)\ with\ \ x_{i} \neq 0也就是如果我们使用L0范数,即希望w的大部分元素都是0. (w是稀疏的)所以可以用于ML中做稀原创 2016-09-18 09:38:40 · 780 阅读 · 0 评论 -
最大熵模型
http://spaces.ac.cn/archives/3567/转载 2016-08-05 14:56:20 · 316 阅读 · 0 评论 -
GMM及EM算法
GMM及EM算法标签(空格分隔): 机器学习 前言: * EM(Exception Maximizition) – 期望最大化算法,用于含有隐变量的概率模型参数的极大似然估计; * GMM(Gaussian Mixture Model) – 高斯混合模型,是一种多个高斯分布混合在一起的模型,主要应用EM算法估计其参数; * 本篇博客首先从简单的k-means算法给出EM算法的原创 2016-07-29 16:04:18 · 3189 阅读 · 1 评论 -
凸优化
凸优化由于在SVM等各种地方都会用凸优化来解决问题,所以本篇博客将系统的介绍凸优化如何做,以及一些常见的问题。 基本概念仿射集(Affine Set)定义:通过集合C中任意两个不同点的直线仍然在集合C内,则称集合C为仿射集. ∀x1,x2∈C,∀θ∈R,则x=θ∗x1+(1−θ)∗x2∈C\forall x_{1},x_{2} \in C, \forall \theta \in R, 则x =原创 2016-06-23 13:17:14 · 2337 阅读 · 0 评论 -
决策树与随机森林
决策树与随机森林本篇博客将重新给出对决策树与随机森林的认识。主要分析决策树的学习算法:信息增益和ID3、C4.5、CART树,然后给出随机森林。信息熵(熵,联合熵,条件熵,互信息)信息增益ID3C4.5CART随机森林原创 2016-06-17 14:09:43 · 5687 阅读 · 0 评论 -
集成学习(Ensemble Learning)
集成学习(Ensemble Learning)标签(空格分隔): 机器学习Adabost对于一些弱分类器来说,如何通过组合方法构成一个强分类器。一般的思路是:改变训练数据的概率分布(权值分布),针对不同的训练数据分布调用弱学习算法学习一系列的弱分类器,然后将他们组合起来,形成强分类器。 需要解决的问题有:在每一轮如何改变训练数据的权值或概率分布?如何将若分类器组合成一个强分类器。已知数据集T原创 2016-07-05 14:09:18 · 984 阅读 · 0 评论 -
Topic Model
Topic Model标签(空格分隔): 机器学习Γ\Gamma函数Γ\Gamma函数可以看做是阶乘在实数域上的推广,即: Γ(x)=∫+∞0tx−1e−tdt=(x−1)!\Gamma(x) = \int_{0}^{+\infty} t^{x-1}e^{-t}dt = (x-1)! 性质:Γ(x)Γ(x−1)=x−1\frac{\Gamma(x)}{\Gamma(x-1)} = x-1Beta原创 2016-07-15 11:42:30 · 550 阅读 · 0 评论 -
朴素贝叶斯与贝叶斯网络
朴素贝叶斯与贝叶斯网络标签(空格分隔): 机器学习朴素贝叶斯朴素贝叶斯朴素在哪里呢? —— 两个假设 * 一个特征出现的概率与其他特征(条件)独立; * 每个特征同等重要。朴素贝叶斯分类器P(c|x)=P(c)P(x|c)P(x)=P(x)P(x)Πdi=1P(xi|c)P(c|x) = \frac{P(c)P(x|c)}{P(x)} = \frac{P(x)}{P(x)}\Pi_{i=1}原创 2016-07-13 20:57:42 · 1292 阅读 · 0 评论 -
聚类算法汇总
聚类算法汇总标签(空格分隔): 机器学习作为无监督领域(unsupervised)一个太过famous的算法了,聚类(clustering)就是对大量未知标注的数据集,按照数据的内在相似性将数据集划分为多个类别,使类别内的数据相似度较大而类别间的数据相似度较小. 然而,里面仍然有很多需要注意的地方,对于聚类本身,目前也有很多改进版本了,所以还是需要总结一下的。相似度的度量各种相似度的度量方式及其相关原创 2016-06-30 20:22:22 · 4363 阅读 · 0 评论 -
Multi-class Classification相关
标签(空格分隔): 毕业论文(OS: 最近在做关于多类分类的综述,但是搜索出来好多方向搞得自己云里雾里的,好吧,又是在下孤陋寡闻了。还是那句话,不知道不可怕,但一直不知道就很尴尬了。)one-class classification – 一元分类In machine learning, one-class classification, also known as unary classificat原创 2017-03-22 21:08:17 · 1329 阅读 · 0 评论