机器翻译是计算机与自然语言的第一个结合点
1966年美国科学院语言自动处理咨询委员会首次提出计算语言学
从计算视角开展的关于自然语言的科学研究为各种语言现象建立模型,是的计算机器具有人类语言处理能力
本学科基本问题:
让计算机具有语言信息处理能力
利用计算机处理海量的语言信息
机器理解自然语言的步骤:
- 文本预处理:
文本采集
文本格式转换:PDF\OFFICE\HTML转换成纯文本
文本编码识别、转换:GB\Big5\Unicode
- 句子切分:
句子边界识别
- 形态分析:
研究构词方法:词的有意义组合
构词的基本单位:词根、前缀、后缀、词尾
- 分词:
将句子切分为词序
- 词性标注:
标注正确的词性
- 句法分析:
分析句子组成结构
结构之间相互关系
判定句子的合法性
- 词义消歧:
标注正确的词义
- 语义分析:
这句话说了什么
- 语用分析:
为什么要说这句话
- 篇章分析:
分析篇章的结构、观点、主题、摘要、有用信息
主题分析、观点分析、自动文摘、信息抽取、信息过滤
- 海量文档处理:
信息检索:搜索引擎、数字图书馆
文本分类、聚类:分类检索、聚类检索
话题探测与追踪
计算语言学的研究特点:
从计算的角度研究语言的性质:
将语言作为计算对象来研究相应的算法:
计算语言学五个任务:
- 提出语言问题
- 数学建模
- 计算模型构建
- 编程实现
- 评估
研究方法:
1.理性主义
2.经验主义
主要研究方向:
机器翻译、自动文摘、信息检索、信息过滤、文档分类、社会媒体处理、
自然语言的特点:
1.复合体
2.高度抽象
3.存在歧义
4.变化无穷
5.表达非规范性
6.持续进化
7.规模巨大,不断变化
藏语词法分析包括:连续字符流中的词语识别、词语内部结构分析和形态分析、词类标注等具体分析任务。
藏语句法分析的基本单位是句子,主要目的是判断是否合乎语法标准。
藏语语义分析包含 词义分析 和 语义分析。词义分析是确立文本中的多义词在当前语句中的意思。句意分析得到藏语句子意义的形式化表示。
藏语分析任务有两类:1.微观层次上,代词与其所指代的语言成分之间的共指关系。2.宏观层次上,分析篇章整体结构以及句间逻辑语义关系,如因果、假设、条件、让步、转折等。