深度学习
文章平均质量分 90
骑着蜗牛逛世界
只当个人学习记录之用
展开
-
bert总结
词嵌入张量: word embeddings语句分块张量: segmentation embeddings位置编码张量: position embeddings最终的embedding向量是将上述的3个向量直接做加和的结果随机的抽取15%的token作为即将参与mask的对象:80%替换为MASK、10%随机替换、10%不变...原创 2022-02-22 20:33:09 · 710 阅读 · 0 评论 -
LSTM原理再议
梯度爆炸如果你截断或挤压渐变,则可以轻松解决此问题。消失的梯度 当梯度的值太小并且模型停止学习或因此而过长时,比梯度爆炸更难以解决。幸运的是,它是通过Sepp Hochreiter和Juergen Schmidhuber提出的LSTM概念解决的长短期记忆神经网络(LSTM)介绍以及简单应用分析 - 舞动的心 - 博客园LSTM神经网络输入输出究竟是怎样的? - 知乎简单理解LSTM神经网络_喜欢打酱油的老鸟-CSDN博客_lstm神经网络简单理解LSTM神经网络原创 2022-02-11 21:58:25 · 586 阅读 · 0 评论 -
网络模型中Inception的作用与结构全解析
https://blog.csdn.net/u010402786/article/details/52433324转载 2019-06-12 19:52:07 · 465 阅读 · 0 评论 -
实现Keras搭建模型借助sklearn的网格搜索模块自动搜索最优超参数
https://machinelearningmastery.com/grid-search-hyperparameters-deep-learning-models-python-keras/https://blog.csdn.net/weiwei9363/article/details/79222268https://blog.csdn.net/orangefly0214/articl...原创 2019-01-17 21:16:10 · 970 阅读 · 0 评论 -
老吴--第四阶段第一周--卷积神经网络
垂直边缘检测:卷积后的图像中间有一个白色区域,表示中间有一个垂直边缘两种类型的垂直边缘检测多种类型的边缘检测有多种类型滤波器,实际卷积时把滤波器的9个值当做学习的参数,借助反向传播检测出45度75度等等的边缘来引出padding的原因:卷积存在缩小图片和对图片边缘特征检测不充分的缺点,加入padding使得卷积后图片大小不变步幅:当不能整除时向下取整...原创 2018-07-27 15:21:29 · 161 阅读 · 0 评论 -
老吴--第二阶段第二周--优化算法
mini-batch指数加权平均:取每天的温度前一天的权重越大,曲线越往右移当天的温度是前几天的权重衰减加和指数加权平均的偏差修正动量梯度下降方法比一般梯度下降方法都快计算梯度的加权指数平均,并利用该梯度更新权重加快学习曲线的横向速度,减小纵向变化范围RMsprop ...原创 2018-07-26 22:11:50 · 160 阅读 · 0 评论 -
老吴--第五周第一阶段--循环序列模型
序列模型的任务序列数学表示:T表示长度怎样独一无二表示序列中的单词:建立大词典,借助one-hot循环神经网络前向计算过程通过时间的反向传播多种循环网络结构音乐生成是一对多、下面两个是命名实体识别和机器翻译语言模型RNN的梯度消失GRULSTM双向RNN:循环单元可以使RNN\GRU\L...原创 2018-07-26 21:40:29 · 170 阅读 · 0 评论 -
老吴--第二阶段第一周--深度学习实用技巧
偏差方差为什么正则化可以防止网络过拟合,使得一些权重的影响作用很小,几乎不起作用Dropout随机失活使得每一层的保持率不一样其他正则化方法:图像数据预处理、早停机制正则化输入---归一化输入数据:零均值化、方差归一化...原创 2018-07-25 10:56:48 · 157 阅读 · 0 评论 -
老吴--第一阶第三周--浅层神经网络
NN前向计算过程前向传播反向传播英语视频语言关是一大障碍原创 2018-07-24 18:48:16 · 206 阅读 · 0 评论 -
老吴--第一阶第二周--神经网络基础
彩色图片三通道数值不同逻辑回归损失函数,不使用线性损失函数,是因为不成碗状逻辑回归单个样本的梯度下降多个样本的梯度下降用向量化,不要用for循环单个lg损失函数...原创 2018-07-24 14:41:45 · 186 阅读 · 0 评论