自然语言菜鸟学习笔记(二)

词法分析

1.语言的分类

传统语言学根据词的形态结构把语言分为三大类:

分析型语言

黏着性语言

曲折型语言

1.1分析型语言

词基本没有专门表示语法意义的附加成分

形态变化少

语法关系靠词序、虚词来表示

如:汉语、藏语

1.2黏着型语言

词内有专门表示语法意义的附加成分,一 个附加成分表达一种语法意义,一种意义 也基本上由一个附加成分来表达

词根或词干跟附加成分的结合不紧密

如:日语

1.3曲折型语言

用词的形态变化来表示语法关系,一个形态成分可以表示若干种不同的语法意义

词根或词干跟词的附加成分结合得很紧密, 往往不容易截然分开

如:英语、德语、法语等

简单比较(汉语与英语的比较)

汉语:词与词紧密相连,没有明显的分界标志

英语:用空格隔开,无需分词

汉语的词形态变化少,靠词序或虚词来表示, 而英语用词的形态变化来表示语法关系

所以对汉语进行词的自动切分  对英语进行词的形态还原

 

2.汉语的自动分词

根据GB-13715规范:

汉语信息处理

• 用计算机对汉语的音、形、义等信息进行的处理。

• 最小的能独立运用的语言单位

词组

• 由两个或两个以上的词,按一定的语法规则组成,表 达一定意义的语言单位

分词单位

• 汉语信息处理使用的、具有确定的语义或语法功能的 基本单位。它包括本规范的规则限定的词和词组。

汉语分词

• 从信息处理需要出发、按照特定的规范,对汉语按分 词单位进行划分的过程。

 

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

_我走路带风

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值