自然语言处理综述

一、前言

1、前人研究

图灵的图灵机

关于算法计算模型的研究;图灵机是一种抽象的数学模型;

香农的信息论

噪声声道,解码;把熵作为测量信道的信息能力或者语言的信息量的一种方法,用概率测定;噪声信道与解码模型;

信息:文字和语言/数字和信息;信息冗余是信息安全的保障/语料对翻译至关重要。

信息的度量:信息熵是对一个信息系统不确定性的度量;熵;冗余度;条件熵;互信息;相对熵;相对熵,利用它可以得到词频率-逆向文档频率TF-IDF;香农第一定理:对于一个信息,任何编码的长度都不小于它的信息熵;信息的作用就是消除不确定性,自然语言处理的大量问题就是找相关的信息。

2、发展历史

<90年代:规则系统:专家系统和知识工程;

1990-2014:概率系统:规则从数据中抽取/规则是有概率的;流程设计-手机训练数据-预处理-抽取特征-分类器-预测-评估;特征和流程都是专家设计的,存在大量独立的子任务

2014之后:深度学习。

3、形式模型

1、基于短语结构语法的形式模型、基于合一运算的形式模型、基于依存和配价的形式模型、基于格语法的形式模型、基于词汇主义的形式模型;

2、基于概率和统计的形式模型:n-gram,隐马尔科夫模型、最大熵模型,条件随机场,查理亚克的概率上下文无关语法和词汇化的概率上下文无关语法、贝叶斯公式、动态规划算法、噪声信道模型、最小编辑距离算法、决策树模型、加权自动机、维特比算法、向内向外算法、向前向后算法。

3、语义自动处理的形式模型

4、语用自动处理的形式模型

4、基本介绍

自然语言处理:是机器理解人类语言和表达方式并作出回应;

句法分析和语义消歧(依赖上下文,消除歧义性);

语言信息、世界信息和视觉信息;

主要任务:文本处理、文本生成、文本翻译;

层次分类:语音学,形态学,语法学,语义学,语用学;

研究方法:理性主义,经验主义;

统计方法:隐马尔可夫模型,上下文无关文法,噪声信道模型;

关键问题:歧义消解问题和未知语言现象;

挑战:一词多义、新词、不规范用语;领域隔离,只有封闭环境可用;数据获取难;效果评估难;

过去25年来,自动问答的需求被网页搜索和数据挖掘替代,新的应用越来越依靠数据的作用和浅层的自然语言处理。研究者们也从单纯的句法分析和语义理解,转变到了对机器翻译、语音识别、文本生成、数据挖掘和知识获取等方向。

二、形式语言与自动机

语言:按照一定规律构成的句子或者字符串的有限或者无限的集合。

描述语言的三种途径:穷举法、文法描述和自动机。

基础知识:集合论/图论

1、基本概念

图、树和字符串

2、形式语言

缺陷:对于像汉语英语这样的大型自然语言系统,难以构造精确的文法/不符合人类学习语言的习惯/有些句子语法正确,但在语义上却不可能,形式语言无法排出这些句子;

解决方向:基于大量语料,采用统计学手段建立模型。

形式语法:正则文法,上下文无关文法,上下文相关文法和无约束文法;

3、自动机

有限自动机,下推自动机,线性带限自动机和图灵机

应用:单词自动查错纠正/词性消歧。

三、语料库与词汇知识库

1、语料库

语料库,基于语料的统计方法;

2、词汇知识库

3、本体论

4、知网

定义了各种关系/动态演化认知架构系统:概念对象和动作对象。

概念之间定义了两种关系:扩展和属性。

动作接受一些概念对象,然后产出一些新的概念对象,动作接受的概念对象有两类:一类是必须要有的,没有动作就没法执行;另一类是可选的,可有可无,类似提供了默认参数。

四、统计语言模型

语言模型就是给某句语言打分,给某个话题打分;狗叫模型;球星模型;电影模型;

概率系统:基本分类器;经典序列模型(HMM/CRF/EM、自动机、语言模型);

概率语言模型:核心就是通过分数告诉机器怎么说话;

概率模型:语言模型、翻译模型、文本对齐、seq2seq模型;

语言模型:文法语言模型、统计语言模型。统计语言模型:n-gram模型;深度学习:神经序列模型LSTM

相似度计算:篇章表示、编辑距离;

computi

  • 3
    点赞
  • 27
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值