nlp
文章平均质量分 60
空空看春晚
这个作者很懒,什么都没留下…
展开
-
词语相似度计算方法总结
词语相似度方法 本文是作者参看相关资料的简单总结,具体内容的链接可以参看下文的参考链接。 词语相似度计算在很多领域中都有广泛的应用,如信息检索、信息抽取、文本分类、机器翻译等方面。目前常用的词语相似度计算方法有两种:基于世界知识或某种分类体系的方法和基于统计的上下文向量空间模型方法。(1)基于词典或某种分类体系计算词语相似度原创 2017-03-14 10:53:36 · 13381 阅读 · 0 评论 -
知网简介
知网简介知网(英文名称为HowNet)是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。1. 问题的提出1988年前后,董振东曾在他的几篇文章中提出以下的观点:(1) 自然语言处理系统最终需要更强大的知识库的支持。(2) 关于什么是知识,尤其是关于什么是计算机可处理的转载 2017-03-10 16:04:37 · 2876 阅读 · 0 评论 -
hownet与wordnet的区别
一、理论基础 首先,二者都以一种“模式假设”(patterning hypothesis)为前提和理论基础。其次,“理解性假设”(comprehensiveness hypothesis)也是二者的理论基础。但二者的理论基础不同之处也很多。Wordnet的一个较主要的理论基础是“可分离性假设”(separability hypothesis)即语言的词汇成分可以被离析出来转载 2017-03-10 15:52:17 · 4180 阅读 · 0 评论 -
中文开源汉语分词工具
本文转载自:http://www.scholat.com/vpost.html?pid=4477 由于中文文本词与词之间没有像英文那样有空格分隔,因此很多时候中文文本操作都涉及切词,这里整理了一些中文分词工具。一般来说用CRF实现的分词工具的处理速度是比较慢的(训练CRF模型是非常耗时的),但是精度高,涉及CRF的分词工具有CRF++,Stanford分词工具。转载 2017-03-15 11:30:26 · 1001 阅读 · 0 评论