机器学习知识
Hzzzz~
这个作者很懒,什么都没留下…
展开
-
transfomer
Transformer下图展示了Transformer模型的架构,与seq2seq模型相似,Transformer同样基于编码器-解码器架构,其区别主要在于以下三点:1.Transformer blocks:将seq2seq模型重的循环网络替换为了Transformer Blocks,该模块包含一个多头注意力层(Multi-head Attention Layers)以及两个position-...原创 2020-02-25 20:29:56 · 462 阅读 · 0 评论 -
pytorch seq2seq模型
机器翻译和数据集机器翻译(MT):将一段文本从一种语言自动翻译为另一种语言,用神经网络解决这个问题通常称为神经机器翻译(NMT)。 主要特征:输出是单词序列而不是单个单词。 输出序列的长度可能与源序列的长度不同。数据预处理将数据集清洗、转化为神经网络的输入minbatchwith open('/home/kesci/input/fraeng6506/fra.txt', 'r') as f:...原创 2020-02-19 22:43:50 · 369 阅读 · 0 评论 -
darawhale第一次学习打卡笔记
1.线性回归线性回归的公式是一种线性关系线性回归的损失函数常用的一种损失函数是均方误差,公式如下优化函数这里用的是小批量随机梯度下降法,这种方法也是神经网络中常用的方法需要注意的点优化函数的代码def sgd(params, lr, batch_size): for param in params: param.data -= lr * param...原创 2020-02-14 19:15:59 · 200 阅读 · 0 评论 -
滑动平均原理
滑动平均算法的原理举个例子,这个例子来自吴恩达老师的deep learning课程中。给出一个连续365天的温度数据,如图所示,横坐标为天数,纵坐标是温度。可以看到这些数据是很不平滑的,会让拟合出来的模型难以具有泛化性,因此,可以采用滑动平均的方式处理。假设某一天经过滑动平均处理后的温度数据为vt,实际的温度数据是at,假定第一天的数据v0是已知的,设β为0.9,那么可以得到v1 = v00...原创 2019-08-06 17:27:34 · 5417 阅读 · 1 评论