神经网络
爱吃饼干和酸奶的螺丝
这个作者很懒,什么都没留下…
展开
-
通俗理解RNN
1.RNN叫循环神经网络,是一种特殊的神经网络,它擅长处理有先后之分的序列数据。以下是它最经典的结构:Xt是t时刻的输入值,A为主体结构,ht是t时刻的输出值,这个结构与一般的神经网络结构的区别就在于有一条从A出发回到A的线,这条线与时间有关。把它展开后如下:这里只画了三个时刻,实际上可以有很多个,每个时刻都有相应的输入,但不是每个时刻都有输出 2.接下来,我们详细讲述...原创 2018-10-13 16:26:21 · 582 阅读 · 0 评论 -
The Illustrated Transformer
The Illustrated TransformerDiscussions: Hacker News (65 points, 4 comments), Reddit r/MachineLearning (29 points, 3 comments)Translations: Chinese (Simplified), KoreanWatch: MIT’s Deep Learni...转载 2019-06-10 09:22:13 · 333 阅读 · 4 评论 -
交叉熵
一直以来对交叉熵懵懵懂懂,比如交叉熵是啥,能干啥,它为什么能这么做,之前也看了好多关于它的描述,还是迷糊,直到我看到了一篇知乎上的解答。链接:https://www.zhihu.com/question/65288314/answer/244557337通用的说,熵(Entropy)被用于描述一个系统中的不确定性(the uncertainty of a system)。在不同领域熵有不...转载 2019-05-16 22:49:44 · 3909 阅读 · 0 评论 -
详解Transformer
1.概述 在介绍Transformer模型之前,先来回顾Encoder-Decoder模型中的Attention。其实质上就是Encoder中隐层输出的加权和,公式如下:将Attention机制从Encoder-Decoder框架中抽出,进一步抽象化,其本质上如下图:以机器翻译为例,我们可以将图中的Key,Value看作是source中的数据,这里的Ke...转载 2019-05-20 17:28:12 · 669 阅读 · 0 评论 -
对话系统评价指标Vector Extrema python代码实现
Vector Extrema另一种在句子级向量上计算相似度的方法是向量极值法。通过筛选词向量的每一维来选择整句话中极值最大的一维作为这个句子的向量表示: 公式中d代表词向量中的维度;是w的词向量中第d维。当然想要更准确的表达两个回复的相似度,仅计算向量极值是不够的,还需要...原创 2019-04-01 15:16:20 · 716 阅读 · 1 评论 -
对话系统评价指标Greedy Match代码实现
Greedy Matching贪婪匹配方法是基于词级别的一种矩阵匹配方法,在给出的两个句子r和r^,每一个词w∈r都会经过词向量转换后变为词向量ew,同时与r^中的每一个词序列w^∈r^的词向量ew^最大程度进行余弦相似度匹配,最后得出的结果是所有词匹配之后的均值:首先要去glove官网https://nlp.stanford.edu/projects/glove/下载训练好的英...原创 2019-03-31 22:05:59 · 1353 阅读 · 5 评论 -
SEQ2SEQ模型原理
这是我看过对经典的SEQ2SEQ模型原理和加入注意机制的SEQ2SEQ模型原理解释得最透彻的一个blog,英文写的,有生动的图片展示,让人理解起来更容易,而且附有tensorflow代码实现的链接,相信你看完都可以自己写个seq2seq程序了。附上博客链接:https://jalammar.github.io/visualizing-neural-machine-translation-mec...原创 2019-01-29 15:24:02 · 205 阅读 · 0 评论 -
tf.app.flags
网上已经给出很多怎么使用和设置参数,怎么输出参量和值,看下面链接应该很容易就懂https://blog.csdn.net/lyc_yongcai/article/details/73456960#commentBox可是一次遍历FLAGS中所有的参量和值的网上给的说法却很少,有的话就是用字典的形式一次性输出FLAGS中所有的key和value,不用每个变量都单独print出来,看链接htt...原创 2019-01-11 17:18:56 · 243 阅读 · 1 评论 -
论文中整理的零碎知识点
1.熵信息熵:量化信息,小概率事件但信息量大比如月食,大概率事件信息量小比如太阳每天都从东方升起,所以采取在概率p前加一个log,再添负号,就满足前面的要求了,而这是针对单个个体,对-logp求期望Ex~p(-logp)是描述总体的信息量。维基百科的解释:在信息论中,熵(英语:entropy)是接收的每条消息中包含的信息的平均量,又被称为信息熵、信源熵、平均自信息量。这里,“消息”代表...原创 2019-01-10 15:54:46 · 811 阅读 · 0 评论 -
关于使用gpu跑程序的问题
针对Python3.6的本人之前一直使用cpu版本的tensorflow,发现神经网络程序运行很慢,于是开始下载gpu版本的tensorflow。查看usr/local/发现有一个cuda-8.0,cuda-9.0文件夹,Ubuntu环境下已经安装好cuda的环境,所以直接下载tensorflow-gpu。本人下载的是1.4.0版本的与cpu版本的一样,但是运行程序报错了,大概说的是我强行...原创 2019-01-10 15:39:22 · 5264 阅读 · 2 评论 -
如何通俗理解BLEU
1.以下是原文的链接https://www.aclweb.org/anthology/P02-1040.pdf2.下面这个是我从网上发现比较能够容易理解的说法https://blog.csdn.net/wwj_748/article/details/796860423.bleu不止可以用来做机器翻译的评估指标,还可以用在语言模型,自动摘要等。https://cloud.tenc...原创 2018-12-18 15:27:31 · 416 阅读 · 0 评论 -
图卷积网络知识汇总
1.图卷积网络知识汇总:https://mayi1996.top/2019/03/14/%E5%9B%BE%E7%BD%91%E7%BB%9C/2.图卷积网络到底怎么做,这是一份极简的Numpy实现:https://www.jiqizhixin.com/articles/2019-02-20-123.快速了解GCN:https://blog.csdn.net/u011537121/...原创 2019-06-16 11:19:08 · 363 阅读 · 0 评论