本周的内容主题是现代汉语词切分研究(也就是我们常说的中文分词,word segmentation)
本部分比较基础,但是比较重要。
-------------------------------------------------------------------------------------------------------------------
既然说到了分词,那么就要下一个定义:在中文里,什么是词?
词是由语素构成的、能够独立运用的最小的语言单位。
词就是说话的时侯表示思想中一个观念的词。缺乏操作标准。
汉语中语素、词和词组的界线模糊。
象牙 是词? 兔牙?
吃饭 吃鱼
毁坏 打坏
# 汉语分词规范
《信息处理用汉语分词规范》GB/T13715-92,中国标准出版社,1993
分词单位:汉语信息处理使用的、具有确定的语义或语法功能的基本单位。包括本规范的规则限定的词和词组。
规范按词类分别给出了各类分词单位的定义,并给出例子。
规范中多处使用了“结合紧密、使用稳定”的表述
不但有规范 还要有词表(还要有语料)
什么是切分单位和应用有关
工程观点[3]
# 定义,什么是中文分词(Chinese word segmentation)?
- 通过计算机把组成汉语文本的字串自动转换为词串的过程被称为自动切分
E.g:
- 鱼在长江中游
- 鱼/在/长江/中/游
特点: 汉语和英语等印欧语言不通,汉语的词与词之间没有明显的空格。而在英语当中,也不是完全没有切分的问题
E.g:
1. 缩写词 N.A.T.O. i.e. m.p.h Mr. AT&T
2. 连写形式 I'm He'd don't
3. 数字 日期 编号 D-4 T-1-A B.1.2
4. 带字符的词 text-to-speech text-based e-mail co-operate
通常而言,英语的切分问题被称为tokenization,相对于中文而言比较容易
# 中文分词的动机(motivation):
- Text-To-Speech 或语音合成,发音/声调的变音/音调
- 信息检索