序
自然语言处理(NLP)学科是一门交叉学科。数学和语文,作金风玉露而在此处相逢。
我在工作和读书期间,在数学方面付出的努力是多过语文方面。但感觉在了解NLP及周边算法后,还是对处理语言还是不得心应手:许多好用的数据集不知如何使用,比如wordNet、知识图谱。
这种感觉像是在找不到入口的宝藏边上徘徊,于是我近期决定从语言学入手,重新思考”语言“这个东西,重新思考现存NLP诸多算法的价值,以及如何使用那些较为成熟的数据集。
我选择的《语言学教程》是北京大学出版社2013年第4版,胡壮麟主编。这本教材是外语专业的必修之一,同时据作者说,这本教材是一本站得比较高的概述性教材,内容全面且忠实,推敲和审改是用心的。
再谈谈更新这个专题时我的个人态度吧。常见有人把写文章当作卖货,姑且这样认为,那么,我这自家小店的掌柜有脾气,您要干货就去别家——我的生活拖泥带水、一路走来泥沙俱下、举目四望又疼又痒,所以我不想把写出的东西,脱敏成不疼不痒的”干货“。华罗庚说把书越读越薄,他老人家那说的是数学,您要有疑问请考虑一下什么叫”范畴“。
胡壮麟先生,百科一下既可知晓,学养深厚著作等身,部队翻译出身又是立场坚定政治可靠~~其实我不是在黑色幽默,我外婆的同窗,也是部队俄文翻译,文革时期因为他说”外文、专业书需要天天看,马列老毛著作不一定天天看“,因而遭受牵连,但他到晚年都觉得他说的很对,还非常得意地和我分享。中国那个时代也有日瓦格医生。写在这里纪念他。
第一章 语言学导论
1.1为什么研究语言
(语言包括三个主要组成部分:语音系统、词汇语法系统、语义系统) (公司、部门的方向有关,另外,TOFEL考察的也是这3个系统啊)
1.2 语言是什么?
语言 NLP中的Natural Language是和Programing Language相区别的概念。
但广义的Language包含了
- 语言
- 视觉
- 动作
- 空间
- 听觉
这几个产生意义的通道。(看来AI再牛逼,能理解小品也很难)
1.3 语言的定义特征
人类语言比动物复杂的多,大贤罗素说过:
A dog cannot relate his autobiography; however eloquently he may bark, he cannot tell you that his parents were honest but poor.
不论一只狗叫得多么卖力,它也无法对你说明它的父母贫穷却又诚实。
(所以,动物纪录片看了可以保持童心,但你从里面却体会不到《红楼梦》,新加坡规定中学生必须读满40回红楼梦,这确实挺有水平)
人类语言的特征:
- 任意性 Arbitrariness (任意性使语言具有创造性,规约性Convention让语言学习辛苦)
- 二层性 Duality (音节 -- 语素 -- 词 -- 词组 -- 短句 -- 小句 -- 句子。。。)
- 创造性 Creativity (英语有制造无限长句的能力)
- 位移性 Displacement (指代)
1.4 语言的起源
1.5语言的功能
(功能的分类法很多,如按简单功能分,可为 [聊天,思考,问候,表扬,买卖...] 无穷多集合)
根据Jakobson的语言功能框架,人类语言有6种功能:
- 所指功能(传达信息)
- 诗学功能(享受语言自身的乐趣)
- 情感功能(表达态度、感觉和情感)
- 意动功能(通过指令和恳求说服和影响他人)
- 寒暄功能(与他人建立联系)
- 元语言功能(弄清意图、词语、和意义)(这条没看懂)
Halliday 提出了语言元功能理论:
- 概念功能(构建经验模型和逻辑关系)
- 人际功能(反映社会关系)
- 语篇功能(建立语言和语境关系)
1.6 什么是语言学
1.7 语言学的主要分支
- 语音学 Phonetics
- 音系学 Phonology
- 形态学 Morphology (词的内在构造)
- 句法学 Syntax (句法分析,word内在的语法纠正系统,微软各个领域都太强;谷歌的SyntaxNet)
- 语义学 Semantics (意义如何在语言中被编码,(”意义“在计算机中的储存方式))
- 语用学 Pragmatics
1.8 宏观语言学
1.9 语言学中的一些重要区别
学术界主流认为,语言学主要功能不是树立权威”标准“,而是记录实际用法。
语言随时间演进。
语言(Langue)和言语(Parole)区别(我没愤青)
Chomsky的观点:
语言能力(对于语言规则系统的潜在意识) vs 语言运用能力(在具体场景中语言的实际运用)
(Chomsky说,激烈辩论中,总有讲话者不遵守语法规则。我没统计过)
(语言学家的人物是从语言运用的数据中,确定语言使用者已掌握的潜在规则系统)(这是专家干的事情)