Math
文章平均质量分 80
LarryNLPIR
专注NLP/IR/Machine Learning/Data Mining
展开
-
文本语言模型的参数估计-最大似然估计、MAP及贝叶斯估计
以PLSA和LDA为代表的文本语言模型是当今统计自然语言处理研究的热点问题。这类语言模型一般都是对文本的生成过程提出自己的概率图模型,然后利用观察到的语料数据对模型参数做估计。有了语言模型和相应的模型参数,我们可以有很多重要的应用,比如文本特征降维、文本主题分析等等。本文主要介绍文本分析的三类参数估计方法-最大似然估计MLE、最大后验概率估计MAP及贝叶斯估计。1、最大似然估计MLE首先回顾一下贝原创 2012-12-15 11:15:36 · 41940 阅读 · 19 评论 -
概率语言模型及其变形系列(2)-LDA及Gibbs Sampling
本系列博文介绍常见概率语言模型及其变形模型,主要总结PLSA、LDA及LDA的变形模型及参数Inference方法。初步计划内容如下第一篇:PLSA及EM算法第二篇:LDA及Gibbs Samping第三篇:LDA变形模型-Twitter LDA,TimeUserLDA,ATM,Labeled-LDA,MaxEnt-LDA等第四篇:基于变形LDA的paper分类总结第五篇:LDA Gibbs Sa原创 2012-12-17 13:08:30 · 69490 阅读 · 61 评论 -
机器学习-Matlab 编程常用命令速览(Ng-ML-class Octave/Matlab Tutorial)
机器学习- Matlab 编程常用命令速览--总结自Ng-ML-class Octave/Matlab Tutorial CourseraA、Basic operations and Moving data around1 在命令行模式用shift + 回车即可附加下一行输出2 length命令apply到矩阵时返回较高的一维的dimension3 help + 命令是显示命令的简要帮助信息原创 2013-05-27 14:41:25 · 9194 阅读 · 1 评论 -
概率语言模型及其变形系列(1)-PLSA及EM算法
本系列博文介绍常见概率语言模型及其变形模型,主要总结PLSA、LDA及LDA的变形模型及参数Inference方法。初步计划内容如下第一篇:PLSA及EM算法第二篇:LDA及Gibbs Samping第三篇:LDA变形模型-Twitter LDA,TimeUserLDA,ATM,Labeled-LDA,MaxEnt-LDA等第四篇:基于变形LDA的paper分类总结第五篇:LDA Gibbs Sa原创 2012-12-20 23:31:33 · 76361 阅读 · 40 评论 -
面试题 从很长的数据流等概率随机采样 蓄水池抽样 Reservoir Sampling
题目:有一个网页抓取器每秒钟抓取一个网页,定义一个API,每次调用的时候要等概率的从目前已经抓取的网页中随机选取一个,应该怎么实现?分析:这题题目定义有一定迷惑性,最直接的思路貌似应该是先保存当前采集到的所有网页,然后随机采样,这显然不是这题的考点。这题想只用O(1)的空间。其实就等价于有一个很长的数据流,数据量大到无法载入内存,怎么做随机等概率采样?容易想到的思路是产生一个0到1之间的随机数,然转载 2015-02-24 11:47:58 · 12688 阅读 · 0 评论 -
深度文本匹配开源工具(MatchZoo)
博主导言:苦于Deep Learning的baseline太多实现困难?苦于没有好的基于深度学习处理NLP, IR, QA任务的开源工具?苦于没有发布自己研究的深度文本匹配模型的交流平台?强烈推荐MatchZoo,用深度学习做自然语言处理,信息检索,智能问答等任务的小伙伴看过来。MatchZoo提供了基准数据集(TREC MQ系列数据、WiKiQA数据等)进行开发与测试,整合了当前最流行的深度文本转载 2017-12-10 23:32:04 · 16348 阅读 · 5 评论