![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
深度学习
JustSleep
这个作者很懒,什么都没留下…
展开
-
自然语言处理(NLP)——词向量
一、Word Embedding概述简单来说,词嵌入(Word Embedding)或者分布式向量(Distributional Vectors)是将自然语言表示的单词转换为计算机能够理解的向量或矩阵形式的技术。由于要考虑多种因素比如词的语义(同义词近义词)、语料中词之间的关系(上下文)和向量的维度(处理复杂度)等等,我们希望近义词或者表示同类事物的单词之间的距离可以理想地近,只有拿到很理想的...原创 2019-03-04 21:29:59 · 4639 阅读 · 0 评论 -
Tensorflow模型持久化
保存两个变量的模型,使用Saver类:v1 = tf.Variable(tf.constant(1.0,shape=[1]), name="v1")v2 = tf.Variable(tf.constant(2.0,shape=[1]),name="v2")result = v1 + v2init_op = tf.global_variables_initializer()saver...原创 2019-03-19 19:16:15 · 175 阅读 · 0 评论 -
Tensorflow CNN的基本函数
方法定义tf.nn.conv2d (input, filter, strides, padding, use_cudnn_on_gpu=None, data_format=None, name=None)参数:**input : ** 输入的要做卷积的图片,要求为一个张量,shape为 [ batch, in_height, in_weight, in_channel ],其中batch为...原创 2019-02-22 19:22:49 · 164 阅读 · 0 评论 -
bert模型
BERT官方Github地址:https://github.com/google-research/bert,其中对BERT模型进行了详细的介绍,更详细的可以查阅原文献:https://arxiv.org/abs/1810.04805。BERT本质上是一个两段式的NLP模型。第一个阶段叫做:Pre-training,跟WordEmbedding类似,利用现有无标记的语料训练一个语言模型。第...原创 2019-03-19 10:14:41 · 849 阅读 · 0 评论 -
参数问题及框架使用
Batch归一化:测试时不可能按批测试,应该是一个一个测试。那么均值和标准差就需要单独估算。应用指数加权平均来估计。Softmax回归识别多个类TensorFlow框架placeholder是之后会赋值的变量,这种方式便于把训练数据加入损失方程。...原创 2019-03-08 09:39:41 · 93 阅读 · 0 评论 -
序列模型
例子对应:小型神经网络、生成音乐、情感分析、判断是否是人名、翻译解决梯度消失问题:GRU上面的门和C可以是向量,门中的值不一定非要是0或1LSTM:双向RNN:是无环图深层RNN:...原创 2019-03-11 13:44:08 · 105 阅读 · 0 评论 -
优化算法
min-batch梯度下降法:把训练集分成小一点的子集,取名为min-batch。指数加权平均:当β为0.98时,大约得到的温度为之前五十天的平均温度。指数加权平均的偏差修正,因为初始有可能太小了动量梯度下降算法:减少纵向的波动,平稳靠近最小值的点。RMSprop算法:增加横轴的变化速度,所以除一个小的数,减小纵轴的变化所以除一个大的数。Ad...原创 2019-03-07 17:23:06 · 163 阅读 · 0 评论 -
人脸识别
人脸验证和人脸识别要让人脸识别实现一次学习,因为每个人只有一个图像。Siamese网络:实现比较两个图片的相似度Triplet损失:面部验证使用二分类:神经风格转换:...原创 2019-03-10 19:45:34 · 84 阅读 · 0 评论 -
目标检测
图片分类的思路可以帮助学习分类定位,而对象定位的思路又可以帮助学习对象检测,对象检测可以检测多个对象。对象定位:特征点检测:利用人为事先标注好的训练集对象检测:基于滑动窗口的目标检测算法把剪切后的小图像输入到卷积神经网络,对每个剪切后的小图像进行卷积操作,进行0、1分类。下面是训练好的卷积神经网络:用卷积层代替全连接层:我们不用依靠每次利用截取的图片进行...原创 2019-03-10 10:55:20 · 160 阅读 · 0 评论 -
深层神经网络
深层神经网络求梯度的大致过程:偏差和方差:过拟合措施(正则化):w是参数矩阵L2正则化又称为权重衰减,w的矩阵乘了一个比1小的数,在进行同之前的梯度递减,所以整个过程又称为“权重衰减”。原因:lamda足够大,则w接近0,直观理解就是把多个隐藏单元的权重设置为零,于是消除了这些影响,网络得以简化.过拟合措施(dropout):每层的keep.prob...原创 2019-03-07 10:14:58 · 131 阅读 · 0 评论 -
经典的卷积神经网络
LeNet-5:AlexNet:VGG-16:ResNets残差网络:残差块学习恒等函数非常容易,所以加入残差块不受影响,可能还会提高效率。Inception network:代替人工确定卷积层中的过滤器类型或者确定是否需要卷积层和池化层迁移学习:如果自己需要训练的目标数据比较少,此时可以使用网上已经训练好的开源数据的权重,作为自己网络权重...原创 2019-03-09 16:07:27 · 115 阅读 · 0 评论 -
卷积神经网络
边缘检测:对这种过滤器进行卷积操作。padding:沿着图像边缘在填充像素,用零填充。有两种填充方式,分别是Valid卷积和Same卷积卷积步长stride:注意如果最后不是整数要向下取整,如果原来的图像小于过滤器则不要进行卷积。立体卷积:池化层:Max pooling和Average最大池化是对每个信道作用,所以通道数不变注意:计算卷积层输出大小的公式...原创 2019-03-09 14:39:14 · 104 阅读 · 0 评论 -
seq2seq
翻译:注意力模型:语音识别:原创 2019-03-14 10:31:19 · 75 阅读 · 0 评论 -
模型指标和策略
查准率P:查全率R:两者结合之后新的指标F1分数(P、R的平均值也叫调和平均数):利用F1这个单一实数指标来判断。开发集以及验证集最好来自同一分布:方法是将数据全部打乱,然后从中抽取。大量数据分配到训练集,其余少量数据分配到开发集和测试集,利用开发集选出不同的方法,测试集的目的是评估你最后的成本偏差。人类水平误差用来估计贝叶斯误差,能够达到的最低值,当接近人类水平时,更难分...原创 2019-03-08 18:57:47 · 348 阅读 · 0 评论 -
深度学习——浅层神经网络
上面是单个样本的神经网络表示。向量运算中的b的相加方式是错误的,应该是按行加。浅层神经网络的梯度推导公式如下:利用链式求导法...原创 2019-03-05 20:11:19 · 363 阅读 · 0 评论