计算语言学课程笔记(二)

本文介绍了中文分词的基础知识,包括词的定义、分词规范、分词动机及基本方法。重点讨论了分词的歧义问题和未登录词识别,提出了基于记忆、规则和统计的歧义消解策略,并指出未登录词识别的挑战。
摘要由CSDN通过智能技术生成
本周的内容主题是现代汉语词切分研究(也就是我们常说的中文分词,word segmentation)
本部分比较基础,但是比较重要。
-------------------------------------------------------------------------------------------------------------------
既然说到了分词,那么就要下一个定义:在中文里,什么是词?
词是由语素构成的、能够独立运用的最小的语言单位。 
词就是说话的时侯表示思想中一个观念的词。缺乏操作标准。 
汉语中语素、词和词组的界线模糊。 
 象牙 是词? 兔牙? 
 吃饭 吃鱼 
 毁坏 打坏 

# 汉语分词规范
《信息处理用汉语分词规范》GB/T13715-92,中国标准出版社,1993 
 分词单位:汉语信息处理使用的、具有确定的语义或语法功能的基本单位。包括本规范的规则限定的词和词组。 
 规范按词类分别给出了各类分词单位的定义,并给出例子。 
 规范中多处使用了“结合紧密、使用稳定”的表述 
 不但有规范 还要有词表(还要有语料) 
 什么是切分单位和应用有关 
 工程观点[3] 



# 定义,什么是中文分词(Chinese word segmentation)?
     -  通过计算机把组成汉语文本的字串自动转换为词串的过程被称为自动切分

E.g:  
     - 鱼在长江中游 
     - 鱼/在/长江/中/游

特点: 汉语和英语等印欧语言不通,汉语的词与词之间没有明显的空格。而在英语当中,也不是完全没有切分的问题
E.g: 
1. 缩写词  N.A.T.O. i.e. m.p.h Mr. AT&T
2. 连写形式 I'm He'd don't 
3. 数字 日期 编号  D-4 T-1-A B.1.2 
4. 带字符的词 text-to-speech text-based e-mail co-operate       

通常而言,英语的切分问题被称为tokenization,相对于中文而言比较容易

# 中文分词的动机(motivation):
- Text-To-Speech 或语音合成,发音/声调的变音/音调
- 信息检索
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值