深度学习
文章平均质量分 89
adam-liu
paaaaaper
展开
-
【论文阅读】Whisper
Whisper证明了通过足够大规模的弱监督学习,就可以实现一个非常有强的语音识别模型。原创 2022-11-15 15:54:19 · 6117 阅读 · 2 评论 -
Triton部署Torch和Onnx模型,集成数据预处理
使用Triton Inference Server对torch模型和onnx模型进行简单部署,并将数据预处理集成在triton中原创 2022-06-29 21:09:30 · 9270 阅读 · 8 评论 -
Wandb:深度神经网络可视化工具介绍及本地部署方式
Wandb的使用手册原创 2022-06-09 14:58:32 · 6655 阅读 · 5 评论 -
算法必备基础知识攻关
1)回归算法:* 最小二乘法(OrdinaryLeast Square) * 逻辑回归(Logistic Regression) * 逐步式回归(Stepwise Regression) (缩减方法) * 多元自适应回归样条(MultivariateAdaptive Regression Splines) * 本地散点平滑估计(Locally Estimated Scatterplo...原创 2019-03-19 20:28:31 · 463 阅读 · 1 评论 -
如何使上下文信息更有用? 关于上下文感知的神经对话模型的实证研究
论文标题:How to Make Context More Useful?An Empirical Study on Context-Aware Neural Conversational Models论文地址:http://www.aclweb.org/anthology/P/P17/P17-2036.pdf摘要 生成式会话系统在自然语言处理(NLP)领域中日益受到关注。...原创 2018-12-24 10:24:37 · 9044 阅读 · 0 评论 -
图解Transformer
原文标题:The Illustrated Transformer原文链接:https://jalammar.github.io/illustrated-transformer/论文地址:https://arxiv.org/abs/1706.03762前言 Transformer在Goole的一篇论文Attention is All You Need被提出,为了方便实现调...原创 2018-12-12 17:04:46 · 72936 阅读 · 59 评论 -
BERT
原文链接:The Illustrated BERT, ELMo, and co. (How NLP Cracked Transfer Learning)作者:Jay AlammarBERT论文地址:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding前言 ...原创 2018-12-04 15:09:20 · 21044 阅读 · 17 评论 -
基于深度self-attention的字符集语言模型(transformer)论文笔记
论文题目:Character-Level Language Modeling with Deeper Self-Attention论文地址:https://arxiv.org/abs/1808.04444v1摘要 LSTM和其他RNN的变体在字符级别的语言建模方面取得了很好的成功。这些模型一般情况下都会使用反向传播来进行训练,并通常把这些模型的成功归结与RNN结构的长时记忆能...原创 2018-11-23 14:15:26 · 3674 阅读 · 0 评论 -
基于Attention的机器翻译模型,论文笔记
论文题目:Neural Machine Translation by Jointly Learning to Align and Translate论文地址:http://pdfs.semanticscholar.org/071b/16f25117fb6133480c6259227d54fc2a5ea0.pdfGIF来源:https://jalammar.github.io/visuali...原创 2018-11-19 13:51:33 · 19049 阅读 · 4 评论 -
【Language model】使用RNN LSTM训练语言模型 写出45°角仰望星空的文章
开篇这篇文章主要是实战内容,不涉及一些原理介绍,原理介绍为大家提供一些比较好的链接: 1. Understanding LSTM Networks :RNN与LSTM最为著名的文章,贴图和内容都恰到好处,为研究人员提供很好的参考价值。中文汉化版:(译)理解 LSTM 网络 (Understanding LSTM Networks by colah) 2.Recurren...原创 2018-11-16 22:03:54 · 2079 阅读 · 2 评论 -
什么是文本的词嵌入?
前言 词嵌入是单词的一种数值化表示方式,一般情况下会将一个单词映射到一个高维的向量中(词向量)来代表这个单词。例如我们将: ‘机器学习’表示为 [1,2,3] ‘深度学习‘表示为[2,3,3] ‘英雄联盟‘表示为[9,1,3] 对于词向量,我们可以使用余弦相似度在计算机中来判断单词之间的距离: ‘机器学习’与‘深度学习‘的距离:‘机器学习’与‘英雄...原创 2018-11-21 11:30:52 · 22681 阅读 · 2 评论 -
TensorFLow的GPU实现与CUDA,cuDNN的关系
TensorFLow的GPU只采用CPU在大规模数据集中训练卷积神经网络的速度很慢,因此可以结合图处理单元(Graphic Processing Unit,GPU)进行加速。GPU具有单指令多数据流结构,非常适合用一个程序处理各种大规模并行数据的计算问题。最常用的GPU是英伟达(nvidia)生产的。编写GPU代码可在CUDA环境下进行。CUDACUDA(Compute Unified...原创 2018-10-29 11:02:02 · 5181 阅读 · 4 评论 -
以解数学题的方式来理解word2vec
1 one-word context假设:词汇表里面有3个单词 ‘今天’,‘天气’,‘不错’; 即V=3隐藏层具有2个节点;即N=2目的是当输入一个单词,我们来预测其下一个单词?则在input layer由one-hot编码: 今天······[1,0,0] 天气······[0,1,0] 不错······[0,0,1]接着我们需要初始化一下输入矩阵...原创 2018-10-17 15:15:03 · 1317 阅读 · 3 评论 -
【word2vec】算法原理 公式推导
前言 近两年来由Mikolov等人提出的word2vec模型和应用引起了社会的极大的关注。使用word2vec模型学习的单词的向量表示已经被证明能够携带语义信息,且在各种NLP任务中都是有用的。越来越多的研究人员希望尝试使用word2vec,但我注意到对于word2vec参数学习过程目前还缺乏一个全面解释的资料,因此限制了许多神经网络方面了解不深的人去理解word2vec的工作原理。...原创 2018-10-10 09:17:24 · 14327 阅读 · 7 评论