nearvoid-CSDN博客

原创 MLPack之HMM学习

这个开源的机器学习的库使用到了boost中的很多库，包括tokenizer（分词器）；也用到了Armadillo也地方，这是一个基于c++语言开发的线性代数开发库，主要用于矩阵计算。1、目录结构：其中hmm_generate_main.cpp：随机的产生一个观测序列然后得到相应的隐藏的状态序列。hmm_loglik_main.cpp：对于给定的观测序列计算其在给定的HMM参数下

2014-04-20 00:02:57 4139 1

隐马尔科夫模型，这个久违的老朋友。大三上学期在实验室的时候，由于实验室项目需用到语音识别，所以就使用了微软的Microsoft Speech SDK，也关注了一下语音识别的原理，其中有以HMM作为模型进行识别的。后来实验室的机器人项目中上位机的软件使用到了人脸识别的功能。实验室有关于识别的工程源代码，但是工程庞大，结构复杂，并且里面有很多没有用到的功能，并且程序经常莫名其妙的跑飞，还存在严重的内存

2014-04-18 10:10:21 2107

翻译 SVD的计算方法

问题模型：对下面的矩阵进行SVD运算：步骤1：步骤2：步骤3：构建对角矩阵S通过上面的图可以看出来A被分解了之后又被近似的还原过来。

2014-04-02 16:45:30 12487 2

翻译隐含语义索引——快速教程(Latent Semantic Indexing(LSI)---A Fast Track Turorial)

隐含语义索引——快速教程摘要：这个快速教程提供了为查询和文档打分与使用SVD（奇异值分解）和term count model来对结果排名的说明。这个教程可以用作一个SVD的快速引用。LSI教程系列在下面的网址下描述：关键字： latent semantic indexing, LSI, singular value decomposition, SVD, eige

2014-04-02 15:27:25 2754

原创使用TF-IDF进行文档分类

关于这个方法的原理比较的简单，可以参考：1、TF-IDF与余弦相似性的应用（一）：自动提取关键词2、TF-IDF与余弦相似性的应用（二）：找出相似文章3、如何计算两个文档的相似度（一）4、gensim做主题模型4、当然还可以看看吴军博士的《数学之美》第十一章如何确定网页和查询的相关性。其中第4篇文章（gensim做主题模型）

2014-04-02 11:05:13 3543

原创 LDA学习总结

今天晚上看了lda算法的原理，深感自己知识的缺乏啊（Dirichlet分布、多项分布、图模型、Gibbs抽样）。这也让我深感惭愧，早就意识到自己数学知识的缺乏，但是一直没有补一下。好吧，简单来总结一下现在对lda的理解（还有很多的地方不理解）。 1、用途：判断两个文档的关联程度使用的方法是查看两个文档中出现相同的单词的个数，就如TF-IDF，这种方法未能够找到隐藏到文本

2014-04-02 02:10:33 18896 2

原创关于python当中lambda、yield、map、reduce、filter、sorted的总结

1、yield的使用，参考：https://stackoverflow.com/questions/231767/the-python-yield-keyword-explained/231855#231855 来自于stackoverflow的，解答者经验非常的丰富，把yield的功能由简单到复杂都介绍了一遍。总结几个要点。 1、generator：只被遍历一次之后便从内存当中删

2014-03-30 20:43:56 3268

原创思考与行动——执行力下降的原因

首先推荐一下自己看的几篇文章：1、布里丹的驴子其中第一篇文章给我最震撼的一句话就是：思考与行动的关系，有些人善于思考而拙于行动，犹犹豫豫而最终一事无成。2、布里丹毛驴效应根本原因：追求完美，害怕失去或者失败既想要得到鱼，有想要熊掌，看似追求完美，实际上是害怕失去其中一种，自己的贪心作怪（捕火鸡的故事），以至于贻误良机，在可行与不可行、可能与不可能、正确与谬误之间选择了后者，是最

2013-12-13 16:53:13 1482

原创信息检索之索引压缩

1、主要内容：信息检索系统中两个重要的数据结构：词项词典和全体倒排记录表，为了构建高效的IR系统，需要对这两个数据结构进行压缩。进行压缩有两个隐含的优点：①、能增加高速缓存（cache）技术的利用率：将频繁使用的查询此项t的倒排记录表采用压缩技术放到高速缓存中，当查询词项t的时候，不再需要进行磁盘操作，而只需要将其倒排记录表在内存中解压缩即可；②、压缩能够加快数据从磁盘到内存的传输速度

2013-12-12 18:38:28 3195

原创信息检索之文档评分、词项权重计算及向量空间模型

1、主要内容：在文档规模很大的情况下，满足布尔查询的结果文档数量可能非常多，往往会大大超过用户能够浏览的文档的数目。需要对搜索出来的文档进行评分和排序。 ①、参数化索引及域索引的概念；目的：1、可以通过元数据（文档的作者、标题、出版日期等）来对文档进行索引和检索；2、上述索引能够提供一个简单的文档评分； ②、词项字在文档中的权重的概念，并通过期出现的统计信息进行权重

2013-12-12 16:56:41 5000

原创信息检索之词典及容错式检索

1、主要内容：对查询中存在拼写错误或存在不同拼写形式具有鲁棒性的拼写矫正技术 ①、支持词典快速查找的多个数据结构； ②、通配符查询； ③、拼写上存在错误的查询，自动校正技术（针对单个词的独立矫正；针对整个查询串的整体矫正技术）； ④、查询词发音相似的查询；2、词典搜索的数据结构：确定每个查询此项是否在词汇表中可参见：1、MySQL索引背后的数据结构

2013-12-11 20:07:55 1400

原创信息检索之词项词典及倒排记录表

1、主要内容 ①文档的基本组成单位及文档中确定这些单位所含字符序列的方法； ②词条化（把原始的字符流分成一个个的词条）和语言学预处理（建立词条的等价类）； ③跳表倒排记录表数据结构（支持快速查询）； ④适合于短语查询和邻近查询的索引结构（在布尔操作的检索系统和web搜索系统中非常普遍）。2、字符序列的生成： ①、编码方式：Unicode

2013-12-11 20:06:45 2026

原创信息检索之布尔检索

1、倒排索引的两部分图 1-32、构建倒排索引的过程 ①收集需要建立索引的文档； ②将每篇文档转换成一个个词条的列表，这个过程成为词条化；（第二章） ③进行语言学处理，产生归一化的词条来作为词项；（第三章） ④对所有文档按照其中出现的词项来建立倒排索引，索引中包括一部词典（存于内存）和一个全体倒排索引表（存于磁盘）。（第四章）

2013-12-11 20:04:27 1899

原创 SnowNLP：处理中文文本内容

这是一个比yaha更加强大的中文分词工具。yaha简单来说只是使用最短路径算法（Dijstra）实现了中文分词，而SnowNLP则实现了词性标标准，情感分析，文本分类，转换成拼音，繁体转简体，文本关键词提取，文本摘要提取，tf，idf，Tokenization（分割成句子），文本相似。为实现上面的功能用到了不少的算法和模型，比如textrank、贝叶斯分类器、隐含马尔科夫模型等。对于学习研究中

2013-12-08 21:01:45 11072

原创开始学习机器学习！

不知道为什么，自己突然就特别想要学习机器学习方面的知识。这种感觉特别的强烈，或许这就是对新知识的渴望吧。《统计学习方法》这本书有点偏理论，有很多关于数学和统计学的知识（似然函数、）。此书系统全面的介绍了各种监督学习方法（其中隐马尔科夫模型的学习方法分监督和非监督两种），包括感知机、k近邻法、朴素贝叶斯法、决策树、逻辑斯谛回归与最大熵模型、支持向量机、提升方法、EM算法、隐马尔可夫模型和条件

2013-11-12 21:27:03 1012

原创坚持一样，不要动摇

今天翻了关于图像识别的图书，只是随便翻了几页，感觉特别熟悉、特别舒心，虽然说上面有很多这样那样复杂的公式吧，比如说模式识别方面的、几种常见的分类方法、几种常见的人脸识别的方法，简单地图像处理如找边缘、锐化处理等，但是感觉依然很亲切，有特别想要学习的冲动。我不知道这种感觉到底是怎么来的，但是已经好几个小时了，自己内心这种的冲动依然不减。的确，这些知识的学习是自己曾经花费时间最长、投入精力最多

2013-10-30 20:38:40 791

原创 VS2010下MFC ActiveX控件与C#编程中间遇到的问题

1、首先是传递参数a) 容器与控件传递字符串选用BSTR格式；b) 托管内存与非托管内存之间：Marshal.StringToHGlobalAnsi(info)；或者Marshal.PtrToStringAnsi(msg.WParam);2、 MFC Activex控件的调试问题：设置正确的调试参数就可以对控件进行调试运行，方法如下：项

2013-02-22 15:08:56 729