自然语言处理
文章平均质量分 77
RYP_S
这个作者很懒,什么都没留下…
展开
-
几款开源分词地址
介绍几款常用也是比较热门的开源分词系统:几款开源分词软件:http://www.jb51.net/article/31926.htmhttpcws分词系统:http://blog.s135.com/httpcws_v100/ICTCLAS 汉语分词系统:http://ictclas.org/index.htmlSCWS分词软件:http://www.xunsearch.com/sc原创 2015-04-03 16:25:25 · 1033 阅读 · 0 评论 -
中科院分词系统整理笔记
NLPIR简介 一套专门针对原始文本集进行处理和加工的软件,提供了中间件处理效果的可视化展示,也可以作为小规模数据的处理加工工具。可以使用该软件对自己的数据进行处理。 NLPIR分词系统前身为2000年发布的ICTCLAS词法分析系统,从2009年开始,为了和以前工作进行大的区隔,并推广NLPIR自然语言处理与信息检索共享平台,调整命名为NLPIR分词系统,增加了原创 2015-08-04 17:48:30 · 9267 阅读 · 0 评论 -
最大熵模型理论及推导
记得刚开始研究最大熵模型时,被它的数学推导搞得云里雾里(汗!数学基础不好啊~~~~快哭了)不过现在补还来得及,借此机会缕了一下MaxEnt的推导一、熵入门理解什么是熵?比如你打碎了一块玻璃,或者洒落了一盒火柴,很自然的事情就是玻璃碎的一塌糊涂,火柴也是,很乱,毫无规律可言。规律是什么东西?规律的反面是什么?其实很有意思的事情就是自然界的东西尽可能的互补以及平衡,火柴很乱,那就规原创 2015-06-30 15:42:11 · 3089 阅读 · 0 评论 -
怎样写一个拼写检查器
怎样写一个拼写检查器 Peter Norvig翻译: Eric You XUlink:http://blog.youxu.info/spell-correct.html上个星期, 我的两个朋友 Dean 和 Bill 分别告诉我说他们对 Google 的快速高质量的拼写检查工具感到惊奇. 比如说在搜索的时候键入 [speling], 在不到 0.1 秒的转载 2015-06-03 17:44:27 · 565 阅读 · 0 评论 -
RedHat上使用matplotlib进行科学画图
Matplotlib是基于python的开源科学测绘包,基于python软件基金会许可证发布。大量的文档和例子、集成了Python和Numpy科学计算包、以及自动化能力,是作为Linux环境中进行科学画图的可靠选择的几个原因。本文将提供几个用matplotlib画图的例子。特性•支持众多的图表类型,如:bar,box,contour,histogram,scatter,line p原创 2015-06-16 12:01:12 · 731 阅读 · 0 评论 -
NLP常用工具
原文链接:http://blog.csdn.net/zhoubl668/article/details/8939789 各种工具包的有效利用可以使研究者事半功倍。以下是NLP版版友们提供整理的NLP研究工具包。同时欢迎大家提供更多更好用的工具包,造福国内的NLP研究。*NLP Toolbox CLT http://complingone.georgetown.edu/转载 2015-05-27 11:34:38 · 514 阅读 · 0 评论 -
如何用简单易懂的例子解释隐马尔可夫模型?
原文: http://www.zhihu.com/question/20962240/answer/34202445确切的讲,这个不是原文,只是原文的答复!! 在讲HMM前,需要先了解下马尔科夫,这个是HMM的基础,马尔科夫描述的是当前状态只和前一状态相关的情况,而且任何一个状态迁移到其它状态的概率是确定的,这样就可以用矩阵的形式表示状态之间的转移情况,这点很重要!!定义:HM转载 2015-05-13 17:04:03 · 2600 阅读 · 0 评论 -
最大熵开源——openNLP MaxEnt
opennlp.maxent package是一个比较成熟的Java package,用来训练和使用最大熵模型。本文描述最大熵和使用opennlp.maxent package的一些相关细节。更新内容:http://sourceforge.net/projects/maxent/(Sourceforge page for Maxent )Download:http://sourcefo原创 2015-04-10 09:45:01 · 3387 阅读 · 0 评论 -
文本分类常用算法比较
本文对文本分类中的常用算法进行了小结,比较它们之间的优劣,为算法的选择提供依据。 一、决策树(Decision Trees)优点: 1、决策树易于理解和解释.人们在通过解释后都有能力去理解决策树所表达的意义。 2、对于决策树,数据的准备往往是简单或者是不必要的.其他的技术往往要求先把数据一般化,比如去掉多余的或者空白的属性。 3、能够同时处理数据型和常规型属性。其他的原创 2015-04-03 16:10:48 · 16618 阅读 · 0 评论 -
IK分词源码分析连载(一)--主流程
转载请注明出处:http://blog.chinaunix.net/uid-20761674-id-3423941.html转载 2014-10-10 14:16:21 · 1596 阅读 · 0 评论 -
IK分词源码分析连载(四)--停用词+未切分词处理
转载请注明出处:http://blog.chinaunix.net/uid-20761674-id-3425302.html 前面三篇文章介绍了IK分词的两个核心模块:子分词器和歧义处理,这篇文章收尾,介绍停用词以及未切分词的处理方法:process已经介绍过了,接下来关注processUnknownCJKChar()和getNextLexeme()//对分词进行歧义处理转载 2014-10-10 16:00:15 · 1005 阅读 · 0 评论 -
ICTCLAS分词关键技术
总体流程考虑输入的一句话,sSentence="张华平欢迎您",分词流程如下1、分词 "张/华/平/欢迎/您"2、posTagging "张/q 华/j 平/j 欢迎/v 您/r"3、NE识别:人名识别,音译名识别,地名识别 "张/q 华/j 平/j 欢迎/v 您/r" "张华平/nr"4、重新分词:"张华平/欢迎/您"5、重新posTagging: "张华平/nr原创 2015-08-21 17:16:41 · 1990 阅读 · 0 评论