基于深度学习的自然语言处理
愚昧之山绝望之谷开悟之坡
人工智能智慧城市元宇宙pf,无无明亦无无明尽
展开
-
PaddleNLP系列1-基础知识
基于单塔 Point-wise 范式的语义匹配模型 ernie_matching: 模型精度高、计算复杂度高, 适合直接进行语义匹配 2 分类的应用场景。原创 2022-09-21 19:10:29 · 672 阅读 · 0 评论 -
李宏毅课程-人类语言处理1-课程综述(上)
目标语言可以是语音也可以是文字基本上文字和语音都是一半一半语音复杂,一秒有很多的信号解决这六大问题深度学习直接端到端训练就可以解决语音识别ASR语音合成原创 2022-01-17 20:09:47 · 736 阅读 · 0 评论 -
paddle模型服务器部署分两步走
采用docker部署,将相关文件拷贝到容器中Serving readme执行命令后,会在当前目录下生成2个目录:serving_server 和 serving_client。serving_server目录包含服务器端所需的模型和配置,需将其拷贝到服务器端容器中;serving_client目录包含客户端所需的配置,需将其拷贝到客户端容器中。第一步 把动态图转换成静态图模型# Copyright (c) 2021 PaddlePaddle Authors. All Rights Reserved.原创 2021-08-11 17:26:28 · 1688 阅读 · 0 评论 -
模型部署-转静态图和预测引擎
self.input_handles[0].copy_from_cpu(input_ids) if network in [ "lstm", "bilstm", "gru", "bigru", "rnn", "birnn", "bilstm_attn" ]: self.input_handles[1].copy_from_cpu(seq_lens).原创 2021-08-11 09:38:36 · 932 阅读 · 0 评论 -
4-4 实践课:文本情感分析
专门针对情感级别的预训练模型句子情感就是单句,目标情感就是多久,按句子对输入即可原创 2021-08-10 11:43:05 · 129 阅读 · 0 评论 -
4-3 理论课:情感分析技术及应用
广义的情感分析,包括句子级别的和目标级别的,还有观点抽取难点情感分析的划分词级别,情感字典,离散的方法和连续的方法构造词典的方法句子级别机器学习深度学习LSTM目标级别的,更加细粒度的分析联合抽取,目标和对应的情感预训练模型,就是可以的区屏蔽了情感词去做训练,针对情感级别的任务效果更好...原创 2021-08-10 11:38:35 · 145 阅读 · 0 评论 -
4-2 实践课:实体关系抽取
直接按字做分类,多标签分类尾实体不一样,算两种关系类别就是按类别来划分,I/O不参与,所以后面再把I/O加进来BCE的类别加起来是大于1的,按0.5为中间来划分属于哪个类别技巧,模型任何,投票机制,多任务学习,联合学习。预训练用的那些方法都可以融合到自己的日常模型中去...原创 2021-08-10 11:32:09 · 128 阅读 · 0 评论 -
4-1 理论课:信息抽取技术及应用
信息抽取定义信息抽取应用实体关系事件包括问答也是,有抽取式和生成式评测指标解码是关键实体抽取CRF让输出也关联合理重叠不连续关系抽取两步走关系抽取关系就是一个分类任务序列标注直接解决关系抽取关系重叠分头实体和尾实体进行区分,这个就是实践课的多标签分类问题变换为整体的分类其他问题总结事件抽取,多个分类...原创 2021-08-10 11:09:28 · 192 阅读 · 0 评论 -
8-2 实践课:预训练模型小型化部署实践
不同模型的字段输入是不一样的,有些是以字为id,有些是以词慰id数据增强数据增强预测部署上线,动态度要转换成静态图算子融合动转静和预测引擎两部分,一个是网络结构代码,一个是网络结构的参数推理库预测,cpp的效率更高先配置好坑,然后往坑里填数据serving的第一步是inference,语言模型的electra里面有import paddle.inference as paddle_infer# 1. 创建配置对象,设置预测模型路径 config = paddle.原创 2021-08-10 10:45:02 · 200 阅读 · 0 评论 -
8-1 理论课:预训练模型产业实践课
32bit直接转换成8bit参与运算,一定是线性量化,整数前面会有对应的系数。另外量化需要硬件支持,cpu可能对整数运算有加速,GPU未必,有些本身就适合做浮点数运算。量化后非连续,不能求导,通过一些方式变成连续结构化的裁剪才能提速,本身就是矩阵运算transformer整个头的裁剪裁剪那个不重要的头蒸馏是主流的方案除了常规的学习人工标签这位老师,还可以学习预训练这位老师,信息会更充分,连续的表示,特别针对数据不够时候,针对不能充分蒸馏,可以做些数据增强。中间层也可以蒸馏不.原创 2021-08-10 10:25:26 · 85 阅读 · 0 评论 -
3-6 实践课:快递单信息识别
cat tag.dic快速查看里面内容加载预训练模型的时候,下游任务也一块加载进来了看书不建议,直接去github和官方文档,看最新的,因为会时刻更新原创 2021-08-09 15:43:15 · 127 阅读 · 0 评论 -
3-4 文本语义相似度计算
答案预存好,一一对应给出即可head -20 vocab.txtcls本身就是输如的cls对应的输出,这个就是针对后面的句子专门做分类用的,模型的交互得出的结果token的分类,去第一个输出,sequence类的,取第二个cls输出预测的时候两个关键点,第一个模式的转换,训练有dropout,预测的时候就不需要dropout了,另外也不需要梯度的更新标准的linux指令,前面加了个!字符而已...原创 2021-08-09 15:38:16 · 122 阅读 · 0 评论 -
3.2 实践课:词向量应用演示
字典的意义,训练的时候人识别的符号转换成计算机能识别的,预测的时候,计算机识别的转换成分能识别非常标准的写法,引入一个包里面相应的类,然后初始化,然后调用类里面相应的方法即可这个BOW会快,直接用现成的训练好的词向量做运算即可,基于无监督的方式自监督的方式训练好的词向量,CBOW或者skip-gram,维度一般是300维以内,预训练模型的维度可能会达到768,可以用gensim的工具包直接应用底层CBOW或者skip-gram算法训练...原创 2021-08-09 15:25:03 · 121 阅读 · 0 评论 -
3-5 理论课:词法分析技术及其应用
词法分析,分词和分类的组合分词和词法分析的意义,检索,按词进行匹配搜索、智能问答、实体抽取都有应用分词技术发展,最简单的前向和后向最大字符串匹配,基于概率的n-gram语言模型,到后面的机器学习,到深度学习字符串匹配统计语言模型统计语言模型序列标注序列标注发展最开始只是寻找输入的关联输出的标签也是有关联的用天剑随机场CRF,概率转移矩阵解决,核心就是寻找概率最大的那条路径LSTM+CRF预训练语言模型的发展LAC是ERNIE在BIGRU上基于模型蒸馏得到的.原创 2021-08-07 14:18:03 · 316 阅读 · 0 评论 -
3-3 理论课预训练语言模型及应用
语言理解的四个粒度,字段理解、词的理解、句子的理解、篇章的理解词向量,词的粒度token类别还是整个句子的类别词向量是静止的预训练语言模型底层特征可以复用NLP技术发展基于双向LSTM ELMO第一个预训练语言模型横向左右双向建模得到上下文信息,纵向得到不同程度的特征信息不直接参与模型训练,只是作为特征参与下游任务解决了一词多义的问题问题GPT更强的文本特征提取能力直接参与下游的模型训练针对下游任务的应用简化了模型结构设计存在缺点直接进.原创 2021-08-07 14:07:45 · 166 阅读 · 0 评论 -
3.1 理论课:前预训练时代的自监督学习
演变过程,基于词,基于句子和预训练自回归和自编码神经网络了别教师和学生,不断的区调整,最终达到最佳状态损失函数的主要类别梯度更新自监督词的表示学习ohehot编码自监督词的表示学习embedding编码,其实就是one-hot编码的权重,数学推导即可得出词向量词向量skip-gram网结构词向量skip-gram样本构成词向量CBOWskip-gram和CBOW对比,一个老师教多个学生,还是多个老师教一个学生,有准确度的问题也有效率的比对问题基于句子编码的神.原创 2021-08-07 13:37:31 · 169 阅读 · 0 评论 -
2.1走进自然语言处理
任何计算机沟通的一种方式,图像,语音,语言智能问答智能对话机器同传难点,多样性和歧义性图灵测试很多技术的发展都是这个趋势,包括具体的某个细节性的技术,规则方法、统计学习方法、深度学习方法统计学习就是机器学习深度学习就是特征工程那一步有神经网络直接处理了原理和实践。...原创 2021-08-07 13:16:51 · 233 阅读 · 0 评论 -
6-4 实践课:轻量级机器同传翻译系统-1
K越大效果越好,如果K就是整个句子,那就是普通的翻译模型了词,转换成字词,英文一个单词就是词,二中文是要进行分词才能产生词同传和普通翻译的关键区别就是,同传是把一句话拆成多段送到模型中特殊符号就是用来告诉,这两个字词是可以组成一个词的,借助这个词典还原即可经验分析看书第一步,看视频、看案例第二部,实习就是实战...原创 2021-08-04 22:16:02 · 131 阅读 · 0 评论 -
6-3 理论课:机器同传技术及应用
类似同声传译一样信息单元粒度的理解难点一语音识别错误带来的噪声语义边界的界定效果和延时的取舍问题的解决方案容错机制等待策略判断信息单元就是个分类模型目前的问题...原创 2021-08-04 22:09:23 · 121 阅读 · 0 评论 -
6-2 实践课:中英文本翻译系统
star过的话,是可以在自己的目录下找到记录的BPE分词模型介绍 优势1:压缩词表、优势2:缓解了OOV,因为针对没有出现的词不统一用unk,而是有区分的定义统计各种组合词的次数然后排序,按最大次数来拆分,最大的次数就是最优可能拆分的可能...原创 2021-08-02 11:16:01 · 136 阅读 · 0 评论 -
6-1 理论课:文本翻译技术及应用
机器翻译的挑战-译文选择机器翻译挑战-译文调序翻译-信达雅基于规则-基于统计-基于神经网络深度学习,三驾马车-数据、算力、算法翻译自动评价 BLEUBLEU在漏翻译存在的问题短译文,进行惩罚忠实度和流利度忠实度和流利度神经网络的机器翻译注意力机制基本原理自注意力机制,以及所谓的多头自注意力机制挑战一,多语言翻译的数据稀缺共用编码模型多领域挑战问题,预训练模型预训练模型多模态问题 -语音多模态-图像自动写诗模型漏译.原创 2021-08-02 11:08:24 · 139 阅读 · 0 评论 -
5-3 理论课:结构化数据问答
知识型问答的分类所谓的表格型问答,其实就是基于数据库的问答,数据库里面的数据是按表去存储的结构化问答原理任务的核心就是text-to-sql的技术相关术语介绍评估方法有直接按生成的SQL语句评估,或者直接按最终生成的文本正确答案去评估数据集介绍目前主流的学习方式其实就是类似衣蛾翻译任务而已,把人类语音翻译成机器能识别的语言任务框架介绍任务挑战 领域泛华问题任务挑战,输出结构化问题text-to-sql改进的模型框架代码结构介绍直接登陆un.原创 2021-08-02 10:54:07 · 209 阅读 · 0 评论 -
5-2 实践课:机器阅读理解
文本过长的时候,采用滑动窗口的形式,一个样本可以组合成多个特征样本去训练,滑动窗口可以有重叠的地方内置函数处理返回的一般是字典的形式的数据格式就是一个序列标注任务,判断当前字是答案开始位置和结束位置的概率,针对每个字符的二分类两个loss的组合...原创 2021-08-02 10:37:04 · 130 阅读 · 0 评论 -
5-1 理论课:检索式文本问答
一、问答系统问答系统的应用,其实是对话系统的一种类型,偏向知识型对话细分类别搜索场景的分类,文本问答,知识库问答,表格问答,视频问答文本问答,分检索式问答和生成式问答,检索式问答分两步、段落检索和阅读理解,阅读理解是问答系统的一个步骤二、阅读理解阅读理解定义阅读理解分类和评估方式抽取式阅读理解其实本质上是个序列标注任务,判断没个字是起始位置和结束位置这两个类别的概率大小相关模型方法阅读理解的泛化性问题,多任务学习,现在是pipline的方式,先检索后阅读理解,可以直接端原创 2021-07-29 10:00:36 · 606 阅读 · 0 评论 -
DGU对话意图识别,每次模型只保存最佳模型
import osimport randomimport timeimport numpy as npfrom functools import partialimport paddleimport paddle.nn as nnimport paddle.nn.functional as Fimport paddle.distributed as distfrom paddle.io import DataLoader, DistributedBatchSampler, BatchSa原创 2021-07-27 14:23:14 · 321 阅读 · 0 评论 -
7-1 理论课:任务式对话系统
一、对话系统分类任务型对话具体领域的场景、闲聊型对话情感陪伴、问答型对话只是满足智能家居的应用消费电子应用车载出现应用只能客服应用,文字只能客服和语音只能客服二、Pipeline型任务对话系统NLU就是意图识别和词槽识别NLU典型算法举例DST 多伦对话的词槽概率分布的跟踪DST算法模型原理根据状态,得出相应的动作,类似强化学习,强化学习这块加强跟进离线学习和在线学习,在线学习就是强化学习机器自己跟自己对抗训练,类似自己跟自己下棋自然语言生成NLG原创 2021-07-25 15:28:38 · 457 阅读 · 2 评论 -
7-3 理论课:开放域对话系统
开放域对话技术方向检索式对话生成式对话生成式对话目标函数生成式对话训练过程transformer模块简介编码段是BERT,解码端是GPT就是transformer解码策略介绍贪心解码,只选最大的纯采样解码topK采样top-p采样BLEU评估指标介绍Distinct评估指标介绍PLATO-2建模原理...原创 2021-07-25 22:22:13 · 283 阅读 · 0 评论 -
7-4 实践课:手动搭建中文闲聊机器人
生成式api内嵌在所有生成式的模型中GPT是生成式任务,UnifiedTransformer是对话模型用的对话系统编码模块是有一个专门的编码函数,编码后的结果都是一个字典去查看熟悉对应的API文档,包括generate熟悉这个rep以plato-2效果会更好...原创 2021-07-27 08:52:05 · 161 阅读 · 0 评论