2014年04月_nearvoid

04月 03月

原创 MLPack之HMM学习

这个开源的机器学习的库使用到了boost中的很多库，包括tokenizer（分词器）；也用到了Armadillo也地方，这是一个基于c++语言开发的线性代数开发库，主要用于矩阵计算。1、目录结构：其中hmm_generate_main.cpp：随机的产生一个观测序列然后得到相应的隐藏的状态序列。hmm_loglik_main.cpp：对于给定的观测序列计算其在给定的HMM参数下

2014-04-20 00:02:57 4059 1

隐马尔科夫模型，这个久违的老朋友。大三上学期在实验室的时候，由于实验室项目需用到语音识别，所以就使用了微软的Microsoft Speech SDK，也关注了一下语音识别的原理，其中有以HMM作为模型进行识别的。后来实验室的机器人项目中上位机的软件使用到了人脸识别的功能。实验室有关于识别的工程源代码，但是工程庞大，结构复杂，并且里面有很多没有用到的功能，并且程序经常莫名其妙的跑飞，还存在严重的内存

2014-04-18 10:10:21 2051

翻译 SVD的计算方法

问题模型：对下面的矩阵进行SVD运算：步骤1：步骤2：步骤3：构建对角矩阵S通过上面的图可以看出来A被分解了之后又被近似的还原过来。

2014-04-02 16:45:30 12210 5

翻译隐含语义索引——快速教程(Latent Semantic Indexing(LSI)---A Fast Track Turorial)

隐含语义索引——快速教程摘要：这个快速教程提供了为查询和文档打分与使用SVD（奇异值分解）和term count model来对结果排名的说明。这个教程可以用作一个SVD的快速引用。LSI教程系列在下面的网址下描述：关键字： latent semantic indexing, LSI, singular value decomposition, SVD, eige

2014-04-02 15:27:25 2697

原创使用TF-IDF进行文档分类

关于这个方法的原理比较的简单，可以参考：1、TF-IDF与余弦相似性的应用（一）：自动提取关键词2、TF-IDF与余弦相似性的应用（二）：找出相似文章3、如何计算两个文档的相似度（一）4、gensim做主题模型4、当然还可以看看吴军博士的《数学之美》第十一章如何确定网页和查询的相关性。其中第4篇文章（gensim做主题模型）

2014-04-02 11:05:13 3495

原创 LDA学习总结

今天晚上看了lda算法的原理，深感自己知识的缺乏啊（Dirichlet分布、多项分布、图模型、Gibbs抽样）。这也让我深感惭愧，早就意识到自己数学知识的缺乏，但是一直没有补一下。好吧，简单来总结一下现在对lda的理解（还有很多的地方不理解）。 1、用途：判断两个文档的关联程度使用的方法是查看两个文档中出现相同的单词的个数，就如TF-IDF，这种方法未能够找到隐藏到文本

2014-04-02 02:10:33 18789 2