1、汉语自动分词的基本问题:
汉语自动分词就是让计算机系统在汉语文本中的词与词之间自动加上空格或其他边界标记。
困难:分词规范、歧义切分和未登录词的识别。
2、两个基本问题:
词是什么:词的抽象定义。
什么是词:词的具体界定。
困难的两个方面:单字词与词素之间的划界;词与短语(词组)的划界。
3、交集型切分歧义:
汉字串AJB称作交集型切分歧义,如果满足AJ、 JB同时为词(A、 J、 B分别为汉字串)。 此时汉字串J称作交集串。
4、链长:
一个交集型切分歧义所拥有的交集串的集合称为交集串链,它的个数称为链长。
5、组合型切分歧义:
汉字串AB称作多义组合型切分歧义,如果满足A、 B、AB同时为词。
6、多义组合型切分歧义:
汉字串AB称作多义组合型切分歧义,如果满足
(1)A、 B、 AB同时为词;(2)文本中至少存在一个上下文语境C,在C的约束下,A、 B在语法和语义上都成立。
7、未登陆词(生词)问题:
解释:一是指已有的词表中没有收录的词;二是指已有的训练语料中未曾出现过的词(这种词又称为集外词OOV)。
8、未登录词的几种类型:
①新出现的普通词汇,如博客、 超女、 恶搞、 房奴、 给力、 奥特等,尤其在网络用语中这种词汇层出不穷。
②专有名词(proper names)。 专有名词在早期主要是指人名、 地名和组织机构名这三类实体名称。
另:命名实体(named entity)的概念:
除了包含上述三类实体名称以外,还包括时间和数字表达(日期、 时刻、 时段、 数量值、 百分比、 序数、 货币数量等),并且地名被进一步细化为城市名、 州(省)名和国家名称等。
③专业名词和研究领域名称。
④其他专用名词,如新出现的产品名,电影、 书籍等文艺作品的名称,等等。
9、对于大规模真实文本来说,未登录词对于分词精度的影响远远超过了歧义切分。
//2017/4/7
1、在汉语分词中对命名实体词汇的识别处理是指将命名实体中可独立成词的切分单位正确地识别出来,而不是指识别整个实体的左右边界。
2、大多数都是基于词表进行的,因此,一般统称为基于词表的分词方法。随着统计方法的迅速发展,人们又提出了若干基于统计模型(包括基于HMM和n元语法)的分词方法,以及规则方法与统计方法相结合的分词技术。
3、基于统计模型的分词方法——N-最短路径方法——汉语词语粗分模型
4、汉语自动分词中存在切分歧义消除和未登录词识别两个主要问题。
5、有专家将分词过程分成两个阶段:首先采用切分算法对句子词语进行初步切分,得到一个相对最好的粗分结果,然后,再进行歧义排除和未登录词识别。
6、切分有向无环图: