中文信息处理
文章平均质量分 59
pro_To_Life
专注于软件测试和自动化测试领域
展开
-
中科院的分词系统使用的词性标注标准
汉语文本词性标注标记集<br /><br />Ag 形语素 形容词性语素。形容词代码为a,语素代码g前面置以A。<br /><br />a 形容词 取英语形容词adjective的第1个字母。<br /><br />ad 副形词 直接作状语的形容词。形容词代码a和副词代码d并在一起。<br /><br />an 名形词 具有名词功能的形容词。形容词代码a和名词代码n并在一起。<br /><br />b 区别词 取汉字“别”的声母。<br /><br />c 连词 取英语连词conjunction的第1个字母转载 2010-10-23 14:18:00 · 1039 阅读 · 0 评论 -
隐马尔可夫模型中的Viterbi算法
<br />这篇文章简单描述一下Viterbi算法——一年之前我听过它的名字,直到两周之前才花了一点时间研究了个皮毛,在这里做个简单检讨。先用一句话来简单描述一下:给出一个观测序列o1,o2,o3 …,我们希望找到观测序列背后的隐藏状态序列s1, s2, s3, …;Viterbi以它的发明者名字命名,正是这样一种由动态规划的方法来寻找出现概率最大的隐藏状态序列(被称为Viterbi路径)的算法。<br />这里需要抄一点有关隐马可夫序列(HMM,Hidden Markov Model)的书页来解释一下观测转载 2010-10-23 15:19:00 · 936 阅读 · 0 评论 -
中文命名实体识别之学习笔记一(词性标注)
<br /> 接触命名实体识别这个领域有不少时间了,中文命名实体识别的主要任务是识别出文本中的人名,地名,组织机构名等专有名称和有意义的时间,日期等数量短语并加以归类。命名实体识别技术是信息抽取,信息检索,机器翻译,问答系统等多种自然语言处理技术必不可少的组成部分。对于这个技术,自己也看了不少相关的论文,但是,具体的细节总是不能甚为的深入,今天决定,从最基础的开始。因为命名实体识别,一般是在词性标注,即分词之后进行,所以对于深入命名实体识别技术必须先把词性标注搞的很明白。下面介绍一下,词类标记集:<br原创 2010-12-20 15:16:00 · 3916 阅读 · 0 评论 -
语素词
语法单位有大有小,最大的语法单位是句子,比句子小的语法单位,依次是短语、词、语素。人类的语言是有声音、有意义的,是语音和语义的结合体,这便是语法单位基本的特点。语素是最小的语法单位,也就是最小的语音、语义结合体。 语素按音节分类可以分成: ①单音节语素:如土、人、水、风、子、民、大、海等。 ②双音节语素,组成该语素的两个音节合起来才有意思,分开来没有与该语素有关的意义,双音节语素主要包括联绵字、外来词和专用名词。 A.双声,声母相同的联绵字:如琵琶、乒乓、澎湃、鞑靼、尴尬、荆棘、蜘蛛、踯躅、踌转载 2010-11-03 14:56:00 · 2282 阅读 · 0 评论