python中的静态方法、类方法解读

先上代码吧。

2014-04-23 10:01:21

阅读数 2150

评论数 0

MLPack之HMM学习

这个开源的机器学习的库使用到了boost中的很多库,包括tokenizer(分词器);也用到了Armadillo也地方,这是一个基于c++语言开发的线性代数开发库,主要用于矩阵计算。 1、目录结构: 其中 hmm_generate_main.cpp:随机的产生一个观测序列然后得到相应的隐...

2014-04-20 00:02:57

阅读数 3460

评论数 0

隐马尔科夫模型学习总结

隐马尔科夫模型,这个久违的老朋友。大三上学期在实验室的时候,由于实验室项目需用到语音识别,所以就使用了微软的Microsoft Speech SDK,也关注了一下语音识别的原理,其中有以HMM作为模型进行识别的。后来实验室的机器人项目中上位机的软件使用到了人脸识别的功能。实验室有关于识别的工程源代...

2014-04-18 10:10:21

阅读数 1767

评论数 0

SVD的计算方法

问题模型: 对下面的矩阵进行SVD运算: 步骤1:   步骤2: 步骤3:构建对角矩阵S 通过上面的图可以看出来A被分解了之后又被近似的还原过来。

2014-04-02 16:45:30

阅读数 8965

评论数 3

隐含语义索引——快速教程(Latent Semantic Indexing(LSI)---A Fast Track Turorial)

隐含语义索引——快速教程 摘要:     这个快速教程提供了为查询和文档打分与使用SVD(奇异值分解)和term count model来对结果排名的说明。这个教程可以用作一个SVD的快速引用。LSI教程系列在下面的网址下描述: 关键字:     latent semantic indexing...

2014-04-02 15:27:25

阅读数 2305

评论数 0

使用TF-IDF进行文档分类

关于这个方法的原理比较的简单,可以参考: 1、TF-IDF与余弦相似性的应用(一):自动提取关键词 2、TF-IDF与余弦相似性的应用(二):找出相似文章 3、如何计算两个文档的相似度(一) 4、gensim做主题模型 4、当然还可以看看吴军博士的《数学之美》第十一章 如何确定网页...

2014-04-02 11:05:13

阅读数 2781

评论数 0

LDA学习总结

今天晚上看了lda算法的原理,深感自己知识的缺乏啊(Dirichlet分布、多项分布、图模型、Gibbs抽样)。这也让我深感惭愧,早就意识到自己数学知识的缺乏,但是一直没有补一下。    好吧,简单来总结一下现在对lda的理解(还有很多的地方不理解)。    1、用途:    判断两个文档的关联程...

2014-04-02 02:10:33

阅读数 15179

评论数 0

关于python当中lambda、yield、map、reduce、filter、sorted的总结

1、yield的使用,参考:https://stackoverflow.com/questions/231767/the-python-yield-keyword-explained/231855#231855    来自于stackoverflow的,解答者经验非常的丰富,把yield的功能由...

2014-03-30 20:43:56

阅读数 2929

评论数 0

思考与行动——执行力下降的原因

首先推荐一下自己看的几篇文章: 1、布里丹的驴子 其中第一篇文章给我最震撼的一句话就是:思考与行动的关系,有些人善于思考而拙于行动,犹犹豫豫而最终一事无成。 2、布里丹毛驴效应 根本原因:追求完美,害怕失去或者失败 既想要得到鱼,有想要熊掌,看似追求完美,实际上是害怕失去其中一种,自己的贪心作怪(...

2013-12-13 16:53:13

阅读数 1152

评论数 0

信息检索之索引压缩

1、主要内容:     信息检索系统中两个重要的数据结构:词项词典和全体倒排记录表,为了构建高效的IR系统,需要对这两个数据结构进行压缩。进行压缩有两个隐含的优点:①、能增加高速缓存(cache)技术的利用率:将频繁使用的查询此项t的倒排记录表采用压缩技术放到高速缓存中,当查询词项t的时候,不再需...

2013-12-12 18:38:28

阅读数 2467

评论数 0

信息检索之文档评分、词项权重计算及向量空间模型

1、主要内容:     在文档规模很大的情况下,满足布尔查询的结果文档数量可能非常多,往往会大大超过用户能够浏览的文档的数目。需要对搜索出来的文档进行评分和排序。     ①、参数化索引及域索引的概念;目的:1、可以通过元数据(文档的作者、标题、出版日期等)来对文档进行索引和检索;2、上述索引能够...

2013-12-12 16:56:41

阅读数 3948

评论数 0

信息检索之词典及容错式检索

1、主要内容:对查询中存在拼写错误或存在不同拼写形式具有鲁棒性的拼写矫正技术     ①、支持词典快速查找的多个数据结构;     ②、通配符查询;     ③、拼写上存在错误的查询,自动校正技术(针对单个词的独立矫正;针对整个查询串的整体矫正技术);     ④、查询词发音相似的查询; ...

2013-12-11 20:07:55

阅读数 1026

评论数 0

信息检索之词项词典及倒排记录表

1、主要内容     ①文档的基本组成单位及文档中确定这些单位所含字符序列的方法;     ②词条化(把原始的字符流分成一个个的词条)和语言学预处理(建立词条的等价类);     ③跳表倒排记录表数据结构(支持快速查询);     ④适合于短语查询和邻近查询的索引结构(在布尔操作的检索系统...

2013-12-11 20:06:45

阅读数 1524

评论数 0

信息检索之布尔检索

1、倒排索引的两部分 图 1-3 2、构建倒排索引的过程     ①收集需要建立索引的文档;     ②将每篇文档转换成一个个词条的列表,这个过程成为词条化;(第二章)     ③进行语言学处理,产生归一化的词条来作为词项;(第三章)     ④对所有文档按照其中出现的词项...

2013-12-11 20:04:27

阅读数 1011

评论数 0

SnowNLP:处理中文文本内容

这是一个比yaha更加强大的中文分词工具。yaha简单来说只是使用最短路径算法(Dijstra)实现了中文分词,而SnowNLP则实现了词性标标准,情感分析,文本分类,转换成拼音,繁体转简体,文本关键词提取,文本摘要提取,tf,idf,Tokenization(分割成句子),文本相似。 为实现上...

2013-12-08 21:01:45

阅读数 9946

评论数 0

开始学习机器学习!

不知道为什么,自己突然就特别想要学习机器学习方面的知识。这种感觉特别的强烈,或许这就是对新知识的渴望吧。 《统计学习方法》这本书有点偏理论,有很多关于数学和统计学的知识(似然函数、)。此书系统全面的介绍了各种监督学习方法(其中隐马尔科夫模型的学习方法分监督和非监督两种),包括感知机、k近邻法...

2013-11-12 21:27:03

阅读数 889

评论数 2

坚持一样,不要动摇

今天翻了关于图像识别的图书,只是随便翻了几页,感觉特别熟悉、特别舒心,虽然说上面有很多这样那样复杂的公式吧,比如说模式识别方面的、几种常见的分类方法、几种常见的人脸识别的方法,简单地图像处理如找边缘、锐化处理等,但是感觉依然很亲切,有特别想要学习的冲动。 我不知道这种感觉到底是怎么来的,但是已经...

2013-10-30 20:38:40

阅读数 625

评论数 0

VS2010下MFC ActiveX控件与C#编程中间遇到的问题

1、  首先是传递参数 a)      容器与控件传递字符串选用BSTR格式; b)      托管内存与非托管内存之间: Marshal.StringToHGlobalAnsi(info); 或者 Marshal.PtrToStringAnsi(msg.WParam); 2、  ...

2013-02-22 15:08:56

阅读数 523

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭