自然语言处理NLP基本认识

最新推荐文章于 2024-08-15 15:33:19 发布

Nefelibat

最新推荐文章于 2024-08-15 15:33:19 发布

阅读量1.8k

点赞数

分类专栏：深度学习文章标签： NLP 自然语言处理基本认识

本文链接：https://blog.csdn.net/qq_41821067/article/details/115796546

版权

深度学习专栏收录该内容

23 篇文章 11 订阅

订阅专栏

什么是NLP
- NLP技术
- - 基于规则的方法
  - 基于统计学习的方法
分词算法
词性标注
依存句法分析
语义分析
- 词汇语义分析
- 基于深度学习的方法
用一个词向量来表示，向量看做一个点，求距离，判断两个词之间的相似性。
文本分类与聚类
- 文本分类模型
情感分析
信息抽取
自动文摘
信息推荐
自动问答
机器翻译
词向量学习
词向量学习模型
- 定义阈值
- n-gram模型
- CBOW
- Skip-gram
- Word2Vec
词向量学习优化-简化one-hot输出
- 层次化softmax方法
- 负采样方法
句子向量
文档嵌入显示模型
循环神经网络RNN
- RNN结构
- RNN缺点
- LSTM
- 门控制-遗忘门
- 门控制-输入门
- 门控制-输出门
门限循环单元（GRU）
递归神经网络
- 前馈神经网络NLP
- 各种处理任务遇到的问题
- RNN 模型应用
数据集的使用
电影评论情感分析
时间预测
- CNN for NLP
- Attention
- multi-head attention做多个值上堆叠就是transformer模型，
- transformer结构
- Q K V

什么是NLP

自然语言处理是实现人与计算机之间用自然语言进行有效通信的各种理论和方法。

NLP技术

基于规则的方法

匹配关键词，句法、语义

基于统计学习的方法

分词算法

N元文法模型，隐马尔可夫模型，最大熵模型，条件随机模型，
让人模拟人对句子的理解进行分词。

词性标注

N元文法模型，隐马尔可夫模型，最大熵模型，条件随机模型，

依存句法分析

语义分析

词汇语义分析

基于深度学习的方法

形式，语义，推理和语用。
在这里插入图片描述

用一个词向量来表示，向量看做一个点，求距离，判断两个词之间的相似性。

文本分类与聚类

新闻自动分类，电子商务评价分类，垃圾邮件识别等。

文本分类模型

基于机器学习的分类
朴素贝叶斯、SVM、最大熵分类
基于神经网络的方法
MLP，CNN，RNN
文本聚类分类
具有距离的分类
通过相似度函数计算语义关联度，然后根据语义关联度进行聚类，如K-means
基于概率模型的分类

情感分析

对态度，观点进行抽取、
SVM，CNN，RNN，LSTM

信息抽取

抽取主要内容。

自动文摘

抽取句子进行排序，生成简短摘要。

信息推荐

自动问答

1、检索
问句理解，信息检索，答案抽取。
2、闲聊，依赖生成语料。

机器翻译

词向量学习

词向量的维度大，进行降维，可以将one-hot编码转化为低维度的连续值，也就是稠密向量。
词向量中语义上接近的词距离接近，语法上接近的词语义接近。

词向量学习模型

语言模型就是判定给的词的概率，现在深度学习可以生成概率，已经转换到关注模型本身。
如果P>阈值，阈值是通过文本数据集或者语料库得到的。

定义阈值

train/valid/test,阈值让验证集的正确率最高。

n-gram模型

在这里插入图片描述

CBOW

在这里插入图片描述

Skip-gram

在这里插入图片描述

Word2Vec

将词变为向量

词向量学习优化-简化one-hot输出

层次化softmax方法

将输出建成一个哈夫曼数，将多分类变为2分类。但是目前还是用one-hot方法。

负采样方法

使用随机负采样策略，最大化正样本的概率，最小化负样本的概率，就是随机将样本替换掉。
采样要求高频词语选用的概率大，这是带权采样。

句子向量

Bag-of-words
缺点：丢失了词汇之间的顺序。直接将词向量相加。
Pooling
取词向量最大，最小，平均，然后进行拼接cat,句子向量长度是词向量长度的三倍。
CNN
有监督学习，可以学习到词序信息。
Variations
把词向量拆分成字符，在输入端引入字符向量，层级CNN。

文档嵌入显示模型

Pooling
LSTM/CNN-GRU

循环神经网络RNN

数据长度是可变的，顺序是有意义的。
带有自反馈的神经元，语音识别，图像处理，语言模型，自然语言生成任务。
所有的词语具有相同的权重矩阵

RNN结构

在这里插入图片描述
f是激活函数，通常为sigmoid,和tanh,t是时间，xt是输入，h是输出，W是权重矩阵，wx+b是一个线性层，ht-1是上一个时刻的输出，U是一个矩阵，

RNN缺点

长期依赖
很久以前的输入，对当前时刻的网络影响较小，反向传播的梯度，也很难影响很久以前的输入。
解决：
使用RELU函数，采用其他模型代替激活函数。tanh会造成梯度消失的问题。

LSTM

提出LSTM
引入记忆单元（memory units），允许网络学习什么时候遗忘历史信息。也就是矩阵得到的值得到记忆单元，并受三个门控制，三个门的元素在【0,1】之间，输入门，遗忘门，和输出门
核心：记忆和门控制（sigmoid（0,1）神经网络层和按位层）

门控制-遗忘门

在这里插入图片描述
相当于一个线性函数映射到（0，1）之间，如果接近0,就选择遗忘。

门控制-输入门

在这里插入图片描述

第二行是输入函数，映射到（-1,1），将第一行和第二行乘。

门控制-输出门

在这里插入图片描述

门限循环单元（GRU）

将输入门和遗忘门简化为更新门。

在这里插入图片描述

递归神经网络

有树状结构。可以用于句子的主谓宾，根据一个给定的拓扑结构，进行词的语义组合。

前馈神经网络NLP

输入，隐藏，输出
层与层是连接的，每层的节点是不连接的
输入和输出的维度是固定的，不能任意改变，无法处理边长的序列数据
词汇节点位置无关，无法对语言中词语序进行建模。

各种处理任务遇到的问题

不同大小的图片
时长不一的视频
长短不同的句子
序列长度不同的对话
视频由连续的图片组成
词义取决上下文，
情感取决上下问
引出DNN

RNN 模型应用

电影评论情感分析。
在这里插入图片描述

数据集的使用

IRIS ML
MNIST Image CNN
LDMB Text RNN
cora Paper GNN

电影评论情感分析

从3之后才是我们要处理的词汇。2代表的是低频词。1代表是起始词，0是要填充的数字，预处理的一个辅助函数，
使用FC全连接层可以将高维变成低维，将嵌入层作为第一层，代替词向量功能的，LSTM将x变成h,

时间预测

CNN for NLP

1.word vector ：不需要进行训练
2、Embeddding :需要进行训练、

没有按照顺序，

Attention

增加个性化权重，可以使得模型更具有可解释性

multi-head attention做多个值上堆叠就是transformer模型，

transformer是GoogleBrain在2017年12月发表的论文Attention is all you need提出的seq2seq模型，现在已经取得了大范围的应用和扩展，二BERT就是从Transformer中衍生出来的预训练的语言模型。VGG16有1亿多参数，GPT有100G

transformer结构

编码器和解码器各自重复6个基本块，
整体认识：
Positional Encoding :位置嵌入就是位置编码
两个子层：Mu;ti-Head self attention Mechanism,Position-wise fully connected feed-forward network
每个子层都接入残差连接和子层正则化
Residual Connection Layer Normalization
解码器增加mask,使得输出yi不依赖yi+1,yi+2…
在这里插入图片描述