Deep learning
文章平均质量分 86
So_that
搜索策略
展开
-
Word2Vec源码技巧分析(C语言)
这篇博客主要讲解word2vec源码(c语言)中的一些技巧,通过这些技巧从而更好的理解word2vec.1 sigmoid的近似求解先来看看sigmoid的公式和函数曲线:g(z)=11+e−z\bm{ g(z)=\frac{1}{1+e^{-z}} }g(z)=1+e−z1从函数曲线中我可以看出,sigmoid的取值在(0,1)之间。在源码中作者为了减少计算量,通过将[-6,6...原创 2019-11-19 19:50:36 · 930 阅读 · 1 评论 -
损失函数总结
本文主要总结一下常见的损失函数。损失函数分为经验风险损失函数和结构风险损失函数。经验风险损失函数指预测结果和实际结果的差别,结构风险损失函数是指经验风险损失函数加上正则项。1. 0-1损失函数(zero-one loss)0-1损失是指:预测值和目标值不相等损失值取1, 否则为0:0-1损失函数直接对应分类判断错误的个数,但是它是一个非凸函数,不太适用.感知机就是用的这种损失函数。...转载 2019-10-18 16:43:07 · 1181 阅读 · 0 评论 -
激活函数
这篇博客对激活函数进行总结。神经网络为什么需要激活函数:首先数据的分布绝大多数是非线性的,而一般神经网络的计算是线性的,引入激活函数,是在神经网络中引入非线性,强化网络的学习能力。所以激活函数的最大特点就是非线性。不同的激活函数,根据其特点,应用也不同。Sigmoid和tanh的特点是将输出限制在(0,1)和(-1,1)之间,说明Sigmoid和tanh适合做概率值的处理,例如LSTM中的...转载 2019-10-17 16:20:20 · 641 阅读 · 0 评论 -
使用GloVe训练自己的语料
这篇博客是一个教程,废话不多说,直接开始1 预料的展示 因为我做的是dna数据所以这里和大家不一样。。。。。。。。。。。。。。。2 下载官方代码 官方下载地址:GloVe(c语言版本)3 修改文件首先将源码上传到服务器打开demo.sh将前面的代码注释掉(如下图)对应的将CORPUS修改为自己的语料名字,我的是words.txt (注意带上后缀)到这里就...原创 2019-07-29 16:49:00 · 2038 阅读 · 1 评论 -
pytorch常用操作和方法
tensor的理解 关于tensor,我们可以理解为是一个高纬度的数据,嗯,其实这个不影响我们的使用啦。常用数据类型和转换torch的常用数据类型有:torch.IntTensor、 torch.FloatTensor、 torch.LongTensortorch.Tensor是默认的tensor类型默认的是 torch.FloatTensor。我们来创建一个:a = np.a...原创 2019-07-24 13:02:40 · 4103 阅读 · 4 评论 -
浅谈seq2seq中Attention机制
attention 机制 attention机制,恩,也就是他的字面意思,我们对序列进行注意力分配,是的重要的额信息更加的突出,不明显的信息被弱化或者忽略。这个机制具体怎么体现的呢?接下来我们来分析一下attention机制的原理。 在理解atention之前,最好对encoder-decoder有一点了解,因为,目前很多的attention机制依附于这个框架来实现。我们这里以rnn单元...原创 2019-07-12 09:03:09 · 1723 阅读 · 0 评论 -
pytorch-LSTM中参数计算以及输出分析
参数计算1首先这篇博客不是介绍LSTM原理的,因为我也不敢说我已经完全理解了LSTM。。。。。。好了,言归正传,我们开始计算lstm中的参数,首先来看pytorch中公式怎么写的:it=σ(Wiixt+bii+Whih(t−1)+bhi)ft=σ(Wifxt+bif+Whfh(t−1)+bhf)gt=tanh(Wigxt+big+Whgh(t−1)+bhg)ot=σ(Wioxt+bio+...原创 2019-07-05 14:33:24 · 3389 阅读 · 0 评论 -
浅谈神经网络语言模型(NNLM)的理解
最近一直在使用各种Embedding的方法,于是好奇的看到了NNLM,总结一下自己的理解。介绍我们用p=(w1,w2,...,wt)p=(w_1,w_2,...,w_t)p=(w1,w2,...,wt)来判断一句话是否通顺。通过条件概率得到如下变形:P(W1,W2,…,Wt)P(W_1, W_2, … , W_t...原创 2019-06-19 19:48:15 · 1496 阅读 · 3 评论 -
神经网络-BP算法简单推导
相信很多人和我一样看了很多的博客,很多书始终对于BP算法都是一头雾水。其实可以大致总结计算步骤如下:通过前向传播得到最终的损失。 计算梯度(需要更新的参数的梯度)。 更新梯度。里面总是出现一些公式很费解。(其实大家可以把它当作梯度下降优化算法的简洁版)这里推荐一个写的很不错的博客以代码实现的角度来理解:https://www.cnblogs.com/pinard/p/64228...原创 2019-04-04 17:50:19 · 563 阅读 · 0 评论