自然语言处理:基于预训练模型的方法
1.2 自然语言处理的难点
1.2.1 抽象性
语言是由抽象符号构成的,每个符号背后都对应着现实世界或人们头脑中的复杂
概念,如“车”表示各种交通工具——汽车、火车、自行车等,它们都具有共同的属
性,有轮子、能载人或物等。
1.2.2 组合性
每种语言的基本符号单元都是有限的,如英文仅有26个字母,中国国家标准GB
2312《信息交换用汉字编码字符集·基本集》共收录6,763个汉字,即便是常用的单
词,英文和中文也不过各几十万个。然而,这些有限的符号却可以组合成无限的语
义,即使是相同的词汇,由于顺序不同,组合的语义也是不相同的,因此无法使用穷
举的方法实现对自然语言的理解。
1.2.3 歧义性
歧义性主要是由于语言的形式和语义之间存在多对多的对应关系导致的,如:
“苹果”一词,既可以指水果,也可以指一家公司或手机、电脑等电子设备,这就是
典型的一词多义现象。另外,对于两个句子,如“曹雪芹写了红楼梦”和“红楼梦的
作者是曹雪芹”,虽然它们的形式不同,但是语义是相同的。
1.2.4 进化性
任何一种“活着”的语言都是在不断发展变化的,即语言具有明显的进化性,也
称创造性。这主要体现在两方面:一方面是新词汇层出不穷,如“超女”“非典”
“新冠”等;另一方面则体现在旧词汇被赋予新的含义,如“腐败”“杯具”等。除
了词汇,语言的语法等也在不断变化,新的用法层出不穷。
1.2.5 非规范性
1.2.6