机器学习
Carl-Xie
这个作者很懒,什么都没留下…
展开
-
特征选择之信息增益法
在设计分类系统的时候,一个很重要的环节便是特征选择,面对成千上万上百万的特征,如何选取有利于分类的特征呢?信息增益(Information Gain)法则是其中一种比较高效的做法。本文首先介绍理解信息增益(Information Gain)的基本概念,之后介绍如何将其运用在特征选择中,最后以stanford-nlp中利用信息增益法实现特征选择的例子结束本文。熵(Entropy)介绍信息原创 2015-11-18 14:11:58 · 24492 阅读 · 8 评论 -
CRF++源码解读
在《条件随机场(Conditional Random Field)简介》中我们了解了条件随机场的基本原理,但是通篇都是数学公式,对于奋战在一线的兄弟估计有点看不爽,并且里面对feature function仅仅只是一笔带过,这通常在实际应用中恰恰相反,一般工作应用在feature engineering上会大费周章,而在算法模型上只是简单套用。为了更好地掌握和运用CRF,本篇将带领大家解读CRF一个原创 2017-04-05 17:52:20 · 17075 阅读 · 10 评论 -
LDA(Latent Dirichlet Allocation)主题模型
LDA于2003年由 David Blei, Andrew Ng和 Michael I. Jordan提出,因为模型的简单和有效,掀起了主题模型研究的波浪。虽然说LDA模型简单,但是它的数学推导却不是那么平易近人,一般初学者会深陷数学细节推导中不能自拔。于是牛人们看不下去了,纷纷站出来发表了各种教程。国内方面rickjin有著名的《LDA数学八卦》,国外的Gregor Heinrich有著名的《P...原创 2016-12-24 16:22:09 · 80552 阅读 · 33 评论 -
朴素贝叶斯(Naive Bayes)模型简介
朴素贝叶斯模型是一个简单却很重要的模型,在文本分类中,由于它出奇的简单实现和令人惊讶的表现,因此实际应用中,它都值得是第一个尝试的基准模型。本文接下来将从文本分类这个具体应用中介绍朴素贝叶斯模型。文本分类问题在文本分类中,我们面临的问题是给定一个文本x⃗ =[x1,x2,...,xi,...,xn]\vec{x}=[x_1,x_2,...,x_i,...,x_n],其中xix_i从原始文本抽出来的一原创 2015-07-24 19:59:18 · 8343 阅读 · 11 评论 -
自动微分(Automatic Differentiation)简介
现代深度学习系统中(比如MXNet, TensorFlow等)都用到了一种技术——自动微分。在此之前,机器学习社区中很少发挥这个利器,一般都是用Backpropagation进行梯度求解,然后进行SGD等进行优化更新。手动实现过backprop算法的同学应该可以体会到其中的复杂性和易错性,一个好的框架应该可以很好地将这部分难点隐藏于用户视角,而自动微分技术恰好可以优雅解决这个问题。接下来我们将一起...原创 2017-04-18 15:01:14 · 43905 阅读 · 19 评论 -
条件随机场(Conditional Random Field)简介
条件随机场(CRF)由Lafferty等人于2001年提出,是一种判别式概率模型,在许多自然语言处理任务中比如分词,命名实体识别等表现尤为出色。本篇与lafferty原始论文相同,将着重介绍条件随机场的一种特殊形式——线性链条件随机场(Linear Chain CRF)。为什么需要CRF作为Motivation,我们考虑如下词性标注任务: 对于一段输入文字“The dog barks”,我们希望原创 2017-04-01 10:02:06 · 18206 阅读 · 12 评论 -
Spark上的决策树(Decision Tree On Spark)
最近花了一些时间学习了Scala和Spark,学习语言和框架这样的东西,除了自己敲代码折腾和玩弄外,另一个行之有效的方法就是阅读代码。MLlib正好是以Spark为基础的开源机器学习库,便借机学习MLlib是如何利用Spark实现分布式决策树。本文主要是剖析MLlib的DecisionTree源码,假设读者已经入门Scala基本语法,并熟悉决策树的基本概念,假如您不清楚,可以参照Coursera上两原创 2016-07-15 14:14:51 · 12663 阅读 · 8 评论 -
谈谈常见的迭代优化方法
如果学习机器学习算法,你会发现,其实机器学习的过程大概就是定义一个模型的目标函数,然后通过优化算法从数据中求取J(θ)取得极值时对应模型参数θ的过程,而学习到的参数就对应于机器学习到的知识。不管学习到的是好的还是无用的,我们知道这其中的动力引擎就是优化算法。在很多开源软件包中都有自己实现的一套优化算法包,比如stanford-nlp,希望通过本原创 2016-02-02 09:54:22 · 25602 阅读 · 5 评论 -
也谈谈机器学习中的Evaluation Metrics
判断事物的好坏需要一定的评判标准,判断分类系统的优劣自然需要一定的评判方式。作为设计机器学习系统的一个很重要的环节——评价指标(Evaluation Metric)即是本文的主角。本文首先介绍Accuracy单独作为评价指标可能有什么不足,再介绍从Precision-Recall到F-measure的推进,接着给出解决Accuracy Paradox的MCC原创 2016-01-07 22:20:57 · 22968 阅读 · 1 评论 -
变分贝叶斯推断(Variational Bayes Inference)简介
通常在研究贝叶斯模型中,很多情况下我们关注的是如何求解后验概率(Posterior),不幸的是,在实际模型中我们很难通过简单的贝叶斯理论求得后验概率的公式解,但是这并不影响我们对贝叶斯模型的爱——既然无法求得精确解,来个近似解在实际中也是可以接受的:-)。一般根据近似解的求解方式可以分为随机(Stochastic)近似方法(代表是MCMC,在上一篇中我们提到的利用Gibbs Sampling训练L...原创 2017-02-25 16:42:02 · 49745 阅读 · 27 评论