第一章(1)
自然语言处理的基本概念:
通俗的讲:自然语言处理就是让计算机可以直接理解人类语言,不再需要研发工程师充当翻译。
举个例子:在nlp技术不成熟的时期,需要研发工程师把产品经理或其他业务人员用人类语言描述的需求翻译成计算机可以理解的编程语言。nlp技术成熟后,理论上人们可以直接输入用人类语言描述的需求,计算机理解后自动生成他想要的产品。目前也已经有类似的实践案例了。
自然语言处理主要研究内容
1、基础算法研究
1.1自然语言理解
1.2自然语言生成
围绕语言学基础理论,在形态、语法以及语义等层面开展自然语言理解基础算法和自然语言生成基 础算法研究。
- 从词语单位看,涵盖了字词、短语、句子、段落以及篇章等不同颗粒度。
- 从语言学研究角度看,涉及形态学、语法学、语义学、语用学等不同层面。
- 从机器学习的角度,针对特定的自然语言处理任务,有监督、无监督、半监督、强化学习等不同的机器学习算法为基础进行构建。
2、应用技术研究
围绕自然语言处理的重要应用场景开展一系列的应用技术研究,包括信息检索、推荐系统、量化交易、智能问诊等众多系统中。
自然语言处理的主要难点:
自然语言处理基础任务的核心和难点就在于解决歧义问题。
1.语音歧义
主要体现在口语中,
由于语言中同音异义词(Homophone )、 爆破音不完全、重音位置不明确等原因造成的。
例如:请问您贵姓? 免贵姓 zhang。
这组对话中“zhang”既可以是“张”,也可以是“章”。汉语中同音异义词也有非常多,例如:“chéng
shì:城市、程式、成事、城事”、“jìn shì:近视、进士、尽是”、“shǒu shì:首饰、手势”等。
2.词语切分歧义
是由字符组成词语时的歧义现象。
例如:语言学是一门基础学科 / 这门语言学起来很困难。
该例句中“语言学”、“语言”都是词语,在同一个句子中就会出现多种切分方法。这种切分歧义
在汉语中普遍存在。
3.词义歧义
词义歧义(Word Sense Ambiguity)是指词语具有相同形式但是不同意义,通常越是常见的词语其词义数量就越多。
例如“打”字在《现代汉语词典(第七版)》 中,有两个读音“dá”和“dǎ”,分别作为量词、动词和介词,在作为动词时“打”字有 24 种含义。、
4.结构歧义
是由词组成词组或者句子时,由于其组成的词或词组间可能存在不同的语法或语义关系而出现的(潜在)歧义现象。
例如:咬死了 | 猎人 | 的 | 狗
该类型歧义中,N1 作为 VP 的宾语,述宾结构“VP+N1”加上“的”之后,作为名词 N2 的定语,
整个结构是一个定中结构。但是 N1 又可以与“的”结合在一起作为 N2 的定语,构成“N1+ 的
+N2”,这个名词词组作为 VP 的宾语,整个结构构成一个述宾结构。这个例子中既可以理解
为“咬死了一只猎人的狗”,也可以理解为“一只把猎人咬死的狗”。
5.指代和省略歧义
指代歧义:句子中代词是的具体是什么的歧义。
省略歧义:省略是自然语言中的一种重要的语言现象,尤其在汉语中省略现象非常常见。省略掉一些成分,在绝大部分情况下不会影响句子的表达,但是还是存在一些由于省略造成歧义的问题。
例如:
县政府同意乡政府报告。
这个例子中省略了助词
“
的
”
,因此使得该句具有两种解释,一个是县政府同意乡政府的那份报告,
另外一个是县政府同意乡政府作出报告。
6.语用歧义
语用歧义
(
Pragmatic Ambiguity
)是指由于上下文、说话人属性、场景等语用方面的原因造成
的歧义。一句话在不同的场合、由不同的人说、不同的语境,都可能产生不同的理解。
例如:下例由于场景的不同,同样的句子可以有不同的意义。
句子:
你知道南京路怎么走吗?
(1)
如果说话人是游客,说话的对象是警察,那么这句话的含义就是问路。
(2)
如果说话人同样是游客,但是说话的对象换成出租车司机,那么这句话的含义就是询问
出租车司机是否可以送他到南京路。
层出不穷的新的语言现象也是一大难点
自然语言并不是一成不变的,而是在动态发展中,存在大量未知语言现象。新词汇、新
含义、新用法、新句型等层出不穷。
例如:新词汇:
双碳、双减、绝绝子、社恐、元宇宙
新含义:
躺平、打工人、凡尔赛、青蛙、潜水、盖楼
新用法:
走召弓虽、
YYDS
、回忆杀、求扩列
、
orz
新句型:
纠结的说、看书
ing
、一整个、无语住
知识补充:
莫拉维克悖论(Moravec’s paradox)是一个关于人类语言理解和沟通的哲学悖论。它由法国哲学家雅克·莫拉维克(Jacques Moracec)于1960年提出。
悖论的核心观点是,尽管我们可以理解和使用大量的词汇,但在某些情况下,我们仍然无法准确地表达自己的意思,或者无法理解他人的意思。
悖论的关键在于,我们的大脑在处理语言时会受到许多限制。例如,我们可能会遇到同音词、多义词、歧义等问题。此外,我们的思维方式和文化背景也会影响我们对语言的理解。这些限制使得我们在某些情况下难以准确地表达自己的想法,同时也使我们难以理解他人的意思。
莫拉维克悖论揭示了语言理解和沟通中的一些挑战,以及人类大脑在处理复杂语言时的局限性。它提醒我们要认识到这些限制,并努力提高自己的语言能力和沟通技巧。