自然语言处理:基于预训练模型的方法(一)

自然语言处理:基于预训练模型的方法

1.2 自然语言处理的难点

1.2.1 抽象性
语言是由抽象符号构成的,每个符号背后都对应着现实世界或人们头脑中的复杂
概念,如“车”表示各种交通工具——汽车、火车、自行车等,它们都具有共同的属
性,有轮子、能载人或物等。
1.2.2 组合性
每种语言的基本符号单元都是有限的,如英文仅有26个字母,中国国家标准GB
2312《信息交换用汉字编码字符集·基本集》共收录6,763个汉字,即便是常用的单
词,英文和中文也不过各几十万个。然而,这些有限的符号却可以组合成无限的语
义,即使是相同的词汇,由于顺序不同,组合的语义也是不相同的,因此无法使用穷
举的方法实现对自然语言的理解。
1.2.3 歧义性
歧义性主要是由于语言的形式和语义之间存在多对多的对应关系导致的,如:
“苹果”一词,既可以指水果,也可以指一家公司或手机、电脑等电子设备,这就是
典型的一词多义现象。另外,对于两个句子,如“曹雪芹写了红楼梦”和“红楼梦的
作者是曹雪芹”,虽然它们的形式不同,但是语义是相同的。
1.2.4 进化性
任何一种“活着”的语言都是在不断发展变化的,即语言具有明显的进化性,也
称创造性。这主要体现在两方面:一方面是新词汇层出不穷,如“超女”“非典”
“新冠”等;另一方面则体现在旧词汇被赋予新的含义,如“腐败”“杯具”等。除
了词汇,语言的语法等也在不断变化,新的用法层出不穷。
1.2.5 非规范性
1.2.6

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值