深度学习
文章平均质量分 86
JasonLiu1919
却顾所来径,苍苍横翠微。
微信号:onepieceand
展开
-
LLM系列 | 09: 基于ChatGPT构建智能客服系统(query分类&安全审核&防注入)
这3点都是在构建具体应用过程必须要考虑的。通过OpenAI的内容审核接口可以检查用户输入的内容是否符合OpenAI的使用政策,包括识别是否存在不良信息、仇恨言论、暴力内容、色情内容等,并对其进行过滤或标记。小伙伴们好,我是卖热干面的小女孩。主要是配置 ChatGPT 的api key和封装调用ChatGPT api的函数。从上述结果可以看出,使用分隔符可以预防Prompt注入。从返回结果可以看出,ChatGPT对各个类别进行鉴别并返回对应的得分。,从回复的结果看,确实是用英文回复,而不是中文。原创 2023-06-18 16:50:33 · 672 阅读 · 0 评论 -
LLM 系列 | 08: 如何用ChatGPT构建点餐机器人?
你可以想象它在助手的耳边低语,引导它的回应,而用户不会注意到系统消息。所以我们现在追加另一个系统消息,它是另一条prompt,我们说创建一个刚刚订单的 JSON 摘要,列出每个项目的价格,字段应包括1)披萨,包括尺寸,2)配料列表,3)饮料列表,4)辅菜列表,包括尺寸,最后是总价格。现在我们已经给模型提供了上下文,也就是之前的对话中提到的我的名字,然后我们会问同样的问题,也就是我的名字是什么。给系统设置的消息是,“你是一个友好的聊天机器人”,第一个用户消息是,“是的,你能提醒我我的名字是什么吗?原创 2023-06-11 23:37:02 · 423 阅读 · 0 评论 -
LLM系列 | 03:实测讯飞星火、文心一言、bing chat和chatgpt
绿树阴浓夏日长,楼台倒影入池塘。水晶帘动微风起,满架蔷薇一院香。小伙伴们好,我是微信公众号《小窗幽记机器学习》的小编:教形意拳的老男孩。更多、更新文章欢迎关注。后续会持续整理,敬请关注。今天这篇小作文主要是为了庆祝网上铺天盖地高呼666和999的讯飞版ChatGPT:星火的诞生。参与今天评测有以下4个:星火、文心一言、bing chat和chatgpt。原创 2023-05-07 23:47:52 · 833 阅读 · 0 评论 -
LLM系列 | 01: 亲测ChatGPT最强竞品Claude,且无需翻墙、注册简单、免手机号
春风桃李花开日,秋雨梧桐叶落时。小伙伴好,我是微信公众号《小窗幽记机器学习》的小编:卖核弹的小女孩。原创 2023-04-22 17:38:30 · 2402 阅读 · 0 评论 -
【LLM系列】00:斯坦福 Alpaca 模型介绍及其复现
Stanford Alpaca是一个Instruction-following的LLaMA模型,即一个对LLaMA模型进行指令调优的结果模型。更多细节可以参考。原创 2023-04-21 23:30:21 · 2996 阅读 · 1 评论 -
【论文解读系列】NER方向:MarkBERT(2022)
MarkBERT 也是一种考虑如何将词信息引入到模型的方案。MarkBERT基于字的模型,但巧妙地将**词的边界**信息融入模型,具体操作是将词之间插入边界marker。出现边界marker意味着前一个字符是词的尾部字符,而紧接着的字符是另一个词的起始字符。如此可以统一处理所有词,不存在词的OOV问题。原创 2022-09-27 15:13:04 · 1275 阅读 · 0 评论 -
【论文解读系列】NER方向:FGN (2020)
汉字作为象形文字有其潜在的特殊字形信息,而这一点经常被忽视。FGN是一种将**字形信息**融入网络结构的中文NER方法。除了用一个新型CNN对字形信息进行编码外,该方法可以通过**融合机制**提取**字符分布式表示**和**字形表示**之间的交互信息。FGN主要有2个创新点: (1)FGN 提出一种新型的CNN结构,即**CGS-CNN**,以**获取字形信息**和**相邻图之间的交互信息**。(2)提出一种**滑动窗口和注意机制**来融合每个**字符的BERT表示**和**字形表示**。原创 2022-09-16 18:42:24 · 809 阅读 · 0 评论 -
【论文解读系列】NER方向:FLAT (ACL 2020)
中文NER通常以字符为单位进行序列标注建模,即一般使用character-based模型。这主要是由于中文分词存在误差,会带来错误传导,所以一般character-based的中文NER模型通常要优于 基于word-based(经过分词)的序列标注建模方法。而在character-based模型中引入词汇信息可以显著提升中文NER效果已经得到多方验证。FLAT也是一种将词汇信息融入character-based模型的解决方案。原创 2022-09-10 11:25:20 · 764 阅读 · 0 评论 -
【论文解读系列】NER方向:SoftLexicon(ACL 2020)
SoftLexicon是一种简单而有效的**将词汇信息纳入字符表示**的方法。这种方法避免设计复杂的序列建模结构,并且对于**任何NER模型**,它**只需要细微地调整字符表示层**来引入词典信息。在4个中文NER基准数据集上的实验结果表明,该方法的推理速度比现有SOTA方法**快6.15倍**,性能更好原创 2022-09-07 11:44:40 · 2916 阅读 · 0 评论 -
【论文解读系列】NER方向:LatticeLSTM (ACL2018)
LatticeLSTM 出自于 ACL2018中的Chinese NER Using Lattice LSTM。LSTM-CRF模型在英文命名实体识别任务中具有显著效果,在中文NER任务中,基于字符的NER模型也明显优于基于词。原创 2022-09-02 10:52:19 · 892 阅读 · 0 评论 -
基于Triton Server部署BERT模型
背景本文简要介绍如何使用 Triton 部署 BERT模型,主要参考 NVIDIA/DeepLearningExamples准备工作下载数据进入到/data/DeepLearningExamples-master/PyTorch/LanguageModeling/BERT/data/squad后,下载数据:bash ./squad_download.sh下载模型wget --content-disposition https://api.ngc.nvidia.com/v2/models/n原创 2022-03-11 16:17:32 · 6884 阅读 · 3 评论 -
RoBERTa中的merge.txt和vocab.json是什么?
背景在使用其他组织或个人发布的RoBERTa预训练模型时,一般除了模型文件之外还会有merges.txt和vocab.json。相比于BERT只需要一个vocab.txt,为何RoBRETa需要2个?作用是什么?说明Bert采用的是字符级别的BPE编码,直接生成词表文件。Roberta采用的是**byte level的BPE(BBPE)**编码,预训练结果中的merges.txt中存储了BBPE过程中merge得到的所有token,可以简单理解成就是字典。vocab.json则是一个字典中基本单元到索原创 2021-02-03 19:15:08 · 6302 阅读 · 4 评论 -
EMNLP2020 | 模型压缩系列:BERT-of-Theseus(一种基于模块替换的模型压缩方法)
当古希腊神话遇到BERT,于是有了BERT-of-Theseus背景论文标题:BERT-of-Theseus: Compressing BERT by Progressive Module Replacing论文作者:Canwen Xu, Wangchunshu Zhou, Tao Ge, Furu Wei, Ming Zhou机构:武汉大学、北京航空航天大学、微软亚洲研究院论文地址:https://arxiv.org/abs/2002.02925收录会议:EMNLP 2020论文代码原创 2020-10-24 10:05:43 · 966 阅读 · 1 评论 -
NeurIPS 2020|RAG:为知识密集型任务而生
NeurIPS 2020|RAG:检索系统助攻生成器背景今天主要介绍一项Facebook AI Research发表于NeurIPS 2020(12月才召开,大家耐心等待哈) 的成果:RAG。虽然NLP在过去几年中突飞猛进,从为特定任务设计定制化的框架,再到如今各种基于海里语料无监督预训练得到强大的通用模型通过微调即可应对各种不同NLP任务。这些模型充满潜力,但它们也有三个主要缺点:(1)不能轻易地扩展或修正模型的记忆(2)预测结果的可解释性差(3)偶尔产生“幻觉”(hallucinations原创 2020-10-10 20:01:17 · 1753 阅读 · 0 评论 -
ACL2020论文阅读笔记:BART
背景题目:BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension机构:Facebook AI作者:Mike Lewis, Yinhan Liu, Naman Goyal, Marjan Ghazvininejad, Abdelrahman Mohamed, Omer Levy, Ves Stoyanov, Luke Zettlem原创 2020-09-26 20:18:51 · 3663 阅读 · 1 评论 -
ACL2020论文阅读笔记-FastBERT: a Self-distilling BERT with Adaptive Inference Time
0. 背景题目:FastBERT: a Self-distilling BERT with Adaptive Inference Time机构:北大、腾讯、北师大作者:Weijie Liu, Peng Zhou, Zhe Zhao, Zhiruo Wang, Haotang Deng, Qi Ju论文地址:https://arxiv.org/abs/2004.02178收录会议:ACL2020代码:https://github.com/autoliuweijie/FastBERT摘要预训练原创 2020-07-25 14:08:57 · 955 阅读 · 0 评论 -
Google新作synthesizer:Rethinking Self-Attention in Transformer Models
0. 背景机构:Google Research作者:Yi Tay, Dara Bahri, Donald Metzler, Da-Cheng Juan, Zhe Zhao, Che Zheng论文地址:https://arxiv.org/abs/2005.007430.1 摘要以当下基于Transformer的各种先进模型来看,使用点积自注意力(dot product self-attention)是至关重要且不可或缺的。但,事实真的如此吗,没有点积自注意力就会不香吗?点积自注意力是否真的不可替代原创 2020-07-19 16:43:30 · 1009 阅读 · 0 评论 -
文献阅读笔记electra: pre-training text encoders as discriminators rather than generators
目录0. 背景0.1 摘要1. 介绍2. 方法3. 实验3.1 实验设置3.2 模型拓展3.3 Small版模型3.4 Large版模型3.5 有效性分析4. 总结0. 背景机构:斯坦福、Google Brain作者:Kevin Clark、Minh-Thang Luong、Quoc V. Le论文地址:https://arxiv.org/abs/2003.10555收录会议:ICLR 2020论文代码:https://github.com/google-research/electra0.1原创 2020-05-09 18:54:20 · 1688 阅读 · 1 评论 -
知识图谱系列-1-概述
文章目录0. 背景1. 知识分类2. 发展背景3. 知识表示4. 是否包含规则0. 背景本文尝试在学习知识图谱过程中将一些零碎的知识进行一次较为系统的梳理,一是为了辅助自己对于该领域知识的体系化,二来是将自己的学习历程以此方式展示方便后来者围观。若是可以进一步助他人避坑,心中自是无限喜悦。本系列将从知识图谱是什么开始介绍,之后稍加考古介绍其发展历程及其当下知识图谱有哪些类型。再往后便是最为核...原创 2019-11-11 20:16:58 · 673 阅读 · 0 评论 -
文献阅读笔记:Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer(T5)
0. 背景机构:谷歌作者: Colin Raffel发布地方:arxiv面向任务:自然语言理解论文地址:https://arxiv.org/abs/1910.10683论文代码:https://github.com/google-research/text-to-text-transfer-transformer0.1 摘要迁移学习已经在NLP领域大显神威,其有效性源于多元化的方法...原创 2019-11-07 16:33:46 · 6063 阅读 · 1 评论 -
在生产环境中基于PyTorch的C++API运行模型-以图像分类为例
背景生产环境多数是使用java或者C++,本文将介绍在C++中加载PyTorch模型,执行生产环境下的推理。因此,本文的重点在于C++中如何加载模型,并进行推理预测操作,而不是模型的设计和训练。可以查看官方提供的说明 https://pytorch.org/tutorials/advanced/cpp_export.html#TorchScript简介TorchScript是PyTorc...原创 2019-10-12 09:37:43 · 2495 阅读 · 0 评论 -
文献阅读:ERNIE 2.0
0. 背景机构:百度作者:Yu Sun, Shuohuan Wang发布地方:arxiv面向任务:Natural Language Understanding论文地址:https://arxiv.org/abs/1907.12412论文代码:https://github.com/PaddlePaddle/ERNIE/0-1. 摘要预训练语言模型带来NLP领域的巨大飞跃就无需多言了,...原创 2019-09-05 14:19:52 · 4948 阅读 · 1 评论 -
文献阅读笔记:RoBERTa:A Robustly Optimized BERT Pretraining Approach
0. 背景机构:Facebook & 华盛顿大学作者:Yinhan Liu 、Myle Ott发布地方:arxiv论文地址:https://arxiv.org/abs/1907.11692论文代码:https://github.com/pytorch/fairseq1. 介绍RoBERTa 模型是BERT 的改进版(从其名字来看,A Robustly Optimized BE...原创 2019-09-09 16:39:09 · 13810 阅读 · 5 评论 -
文献阅读笔记:Glyce2.0(Glyce: Glyph-vectors for Chinese Character Representations)
0. 背景机构:香侬科技作者:Yuxian Meng*, Wei Wu*发布地方:NeurIPS 2019面向任务:Language Representation论文地址:https://arxiv.org/pdf/1901.10125论文代码:https://github.com/ShannonAI/glyce0.1 摘要对于表意文字(logographic,又称语素文字,在非正...原创 2019-09-12 16:39:17 · 999 阅读 · 0 评论 -
TensorFlow服务部署-以图像分类为例
背景本文主要介绍如何基于Docker的TensorFlow Serving快速部署训练好的模型,以对外提供服务。部署在线服务(Serving)官方推荐使用 SavedModel 格式,而部署到手机等移动端的模型一般使用 FrozenGraphDef 格式。本文训练一个神经网络模型来分类衣服的图像,衣服类别有比如运动鞋和衬衫等,并用 TensorFlow Serving 将其部署到线上。模型训...原创 2019-09-19 20:22:50 · 1585 阅读 · 0 评论 -
BERT-Tensorflow模型部署(CPU版和GPU版)
背景使用BERT的TensorFlow方案解决法研杯要素识别任务,该任务其实是一个多标签文本分类任务。模型的具体不是本文重点,故于此不细细展开说明。本文重点阐述如何部署模型。模型部署官方推荐TensorFlow模型在生产环境中提供服务时使用SavedModel格式。SavedModel格式是一种通用的、语言中立的、密闭的、可恢复的TensorFlow模型序列化格式。SavedModel封装了...原创 2019-09-21 11:34:31 · 9940 阅读 · 11 评论 -
DeepLearing学习笔记-改善深层神经网络(第三周作业-TensorFlow使用)
0- 背景:采用TensorFlow的框架进行神经网络构建和结果预测1- 环境依赖:import mathimport numpy as npimport h5pyimport matplotlib.pyplot as pltimport tensorflow as tffrom tensorflow.python.framework import opsfrom tf_utils im原创 2017-10-22 16:29:45 · 5588 阅读 · 2 评论 -
文献阅读笔记:Deep contextualized word representations(ELMo)
0. 背景机构:Allen 人工智能研究所 & 华盛顿大学作者:Paul G发布地方:arxiv、NAACL 2018面向任务:word representation论文地址:https://arxiv.org/abs/1802.05365论文代码:https://github.com/allenai/bilm-tf。顺便安利该研究所的https://github.com/al...原创 2019-08-31 21:12:04 · 1138 阅读 · 0 评论 -
文献阅读:(UNILM)Unified Language Model Pre-training for Natural Language Understanding and Generation
0. 背景机构:微软作者:Li Dong、Nan Yang发布地方:arxiv面向任务:Natural Language Understanding and Generation论文地址:https://arxiv.org/abs/1905.03197论文代码:暂未0-1. 摘要本文提出一个能够同时处理自然语言理解和生成任务UNIfied pre-trained Language M...原创 2019-08-28 19:53:54 · 7444 阅读 · 0 评论 -
第4门课程-卷积神经网络-第一周作业
背景介绍卷积层 (CONV)和池化层(POOL) 的前向和后向传播操作。本文约定如下:上标[l][l] 为该变量所在的层数,即第 lthl^{th}层;例如: a[4]a^{[4]}为第4th4^{th} 层的激活函数, W[5]W^{[5]} 和b[5]b^{[5]} 则对应的是第5层(5th5^{th})的参数。上标(i)(i) 表示第 ithi^{th}个样本。 例如: x(i)x^{(i原创 2017-12-17 21:33:49 · 1809 阅读 · 0 评论 -
第4门课程-卷积神经网络-第二周作业2(基于残差网络的手势分类)
0- 背景本文介绍基于残差网络的深层卷积神经网络,Residual Networks(ResNets)。 从理论上分析,神经网络层数越多,可以表示更复杂的模型函数。CNN能够提取low/mid/high-level的特征,网络的层数越多,意味着能够提取到不同level的特征越丰富。并且,越深的网络提取的特征越抽象,越具有语义信息。 但是在实际训练中,深层的神经网络很难训练。单纯增加网络层数...原创 2018-01-07 17:55:29 · 2901 阅读 · 4 评论 -
DeepLearing学习笔记-改善深层神经网络(第一周作业-3-梯度校验)
1-背景:在神经网络计算过程中,对后向传播的梯度进行校验,确保其计算无误。至于,前向传播,由于相对简单,所以,一般不会出错,在前向传播的基础上利用计算出来的代价JJ我们可以进行后向梯度的校验。公式原理如下: ∂J∂θ=limε→0J(θ+ε)−J(θ−ε)2ε(1) \frac{\partial J}{\partial \theta} = \lim_{\varepsilon \to 0} \fra原创 2017-10-15 16:26:12 · 1971 阅读 · 1 评论 -
DeepLearing学习笔记-Deep Neural Network在图像分类上的应用(第四周-作业2)
1- 准备工作:需要预先安装的环境:numpy matplotlib h5py PIL 和scipy dnn_app_utils是自定义的函数列表,该函数在上一次的作业中(Building your Deep Neural Network: Step by Step)有使用到。np.random.seed(1) 是为了确保所有的随机函数在调用的时候具有一致性。环境测试:import t原创 2017-10-10 09:33:50 · 825 阅读 · 0 评论 -
DeepLearing学习笔记-改善深层神经网络(第一周作业-2-正则化)
0-背景:本文采用正则化的方式处理神经网络过程中的过拟合问题。0-1预先的环境要求:# import packagesimport numpy as npimport matplotlib.pyplot as pltfrom reg_utils import sigmoid, relu, plot_decision_boundary, initialize_parameters, load_2原创 2017-10-14 20:16:51 · 2065 阅读 · 0 评论 -
DeepLearing学习笔记-改善深层神经网络(第一周作业-1)
0-背景:本序列是深度学习序列第二门课程:改善深层神经网络:超参数调试、正则化以及优化的作业。本文的将展示如何对一个新的神经网络选择初始化的参数。一个好的初始化参数能够加速梯度下降的收敛,同时能够以较大几率使得梯度下降收敛到较低的训练(和泛化)误差。 本文需要的一些预装环境如下:import numpy as npimport matplotlib.pyplot as pltimport sk原创 2017-10-14 16:52:29 · 1824 阅读 · 1 评论 -
DeepLearing学习笔记-改善深层神经网络(第三周- 将batch-norm拟合进神经网络)
0- 背景介绍如何将batch归一化引入到神经网络中1- 流程如下:在计算z之后,才是之前介绍的batch归一化方法,对其进行归一化,再替代原来的z值,输入到下该层的激活函数中。其他隐藏层,操作类似。 在实际中,可以直接使用框架中函数,而不必自己实现这些具体的细节。tf.batch_normalization()#进行batch 归一化操作2-min-batch下的batch归一化:对于采用m原创 2017-10-20 22:46:02 · 914 阅读 · 0 评论 -
DeepLearing学习笔记-改善深层神经网络(第三周- 超参数调试、正则化)
背景:介绍超参数调试和处理1-超参数调试相比于早期那种参数较少的情况,可以用网格状的数值划分来做数值的遍历,来获取最优参数。但是在深度学习领域,我们一般是采用随机化的方式进行参数的尝试。 如上图的网格状选取参数其实只能分别在固定在5个值范围内,在我们尚未知晓哪个参数更为重要的前提下是不明智的。此时,我们如果采用右图的随机取值方式,在取值都是25个的情况下,我们获取的是25个的参数1和25个的参原创 2017-10-19 20:27:14 · 1134 阅读 · 0 评论 -
DeepLearing学习笔记-Building your Deep Neural Network: Step by Step(第四周作业)
1-背景:此前,我们已经介绍过单隐藏层的神经网络模型,本文要介绍的是多隐藏层的神经网络模型。 采用非线性的如RELU激活函数符号说明:上标 [l][l] 表示层号,lthl^{th} 例如: a[L]a^{[L]} 是第 LthL^{th} 层的激活函数. W[L]W^{[L]} 和b[L]b^{[L]}分别是LthL^{th}层的参数。上标 (i)(i) 表示第ithi^{th}个样本。原创 2017-10-08 17:02:21 · 4124 阅读 · 1 评论 -
DeepLearing学习笔记-改善深层神经网络(第二周作业-优化方法)
0- 背景:本文将介绍几种常用的优化方法,用以加快神经网络的学习速度 本文需要用到的库如下:import numpy as npimport matplotlib.pyplot as pltimport scipy.ioimport mathimport sklearnimport sklearn.datasetsfrom opt_utils import load_params_and原创 2017-10-15 16:51:53 · 2032 阅读 · 0 评论 -
DeepLearing学习笔记-行归一化和broadcasting
背景:数据归一化能够提高梯度下降的收敛速度归一化:归一化方式:x∥x∥ \frac{x}{\| x\|} ,每行除以其行向量的范数。 例如x=[023644](1)x = \begin{bmatrix} 0 & 3 & 4 \\ 2 & 6 & 4 \\\end{bmatrix}\tag{1} 范数的计算:∥x∥=np.linalg.norm(x,axis=1,keepd原创 2017-09-24 14:23:08 · 632 阅读 · 0 评论