Tylor_ljh-CSDN博客

原创《动手学深度学习Pytorch版》Task8-文本分类；数据增强；模型微调

文本情感分离使用RNN、CNN都可以做数据增强主要讲的是图像的数据增强，提到了以下几种：上下/左右翻转，截取图片中的一小块并缩放大小，颜色/亮度/饱和度/对比度变化，叠加多个图像，若干处理方式叠加等。指的一提的是，数据增强要依据具体任务，来选择有效的处理。任务对哪一种元素敏感（如亮度），就针对该种元素增强。模型微调主要用到了迁移学习的方法：比如resnet预训练模型，原本是针对imag...

2020-02-22 14:35:36 231

原创《动手学深度学习Pytorch版》Task7-优化算法进阶；word2vec；词嵌入进阶

优化算法进阶ill-conditioned海森矩阵(Hessian Matrix)是一个多元函数的二阶偏导数构成的方阵，当海森矩阵的特征值中最大最小的比值很大时，就称之为ill-conditioned。梯度下降时，这种情况会使得不同参数收敛速度差异很大，不容易收敛。下图就是f(x)=0.1x12+2x22f(x)=0.1x_1^2+2x_2^2f(x)=0.1x12+2x22的梯度...

2020-02-22 14:16:54 212

原创《动手学深度学习Pytorch版》Task6-批量归一化和残差网络；凸优化；梯度下降

批量归一化先提一下：标准化和归一化有什么区别？知乎链接：https://www.zhihu.com/question/20467170注意：第一、二、三条的英语都带有normalization。用于输入的标准化对输入的特征进行标准化，使其均值为0，标准差为1批量标准化（用于深度模型）根据小批量上的均值和标准差做标准化，使得神经网络层中间输出的数值更加稳定对全连接层做批量归一化...

2020-02-21 12:29:26 264

原创《动手学深度学习Pytorch版》Task4-机器翻译及相关技术；注意力机制与Seq2seq模型；Transformer

机器翻译及相关技术Task2中的循环神经网络部分，有实现预测歌词的功能。在那个任务中，训练数据的输入输出长度是固定的，而在机器翻译中，输出的长度是不固定的，所以不能直接用RNN来处理这种任务。Encoder-Decoder框架是常用于机器翻译，对话系统这类场景的框架。需要注意的是，在训练过程中Decoder的输入是真实的label，而预测时，输入是上一个ceil的预测值机器翻译解码通...

2020-02-19 19:25:29 265

原创《动手学深度学习Pytorch版》Task5-卷积神经网络

卷积神经网络基础需要理解卷积神经网络的基础概念，主要是卷积层和池化层、填充、步幅、输入通道和输出通道的含义。1x1 卷积几个经典的模型LeNetAlexNetVGGNiNGoogLeNet1×1卷积核作用放缩通道数：通过控制卷积核的数量达到通道数的放缩。增加非线性：1×1卷积核的卷积过程相当于全连接层的计算过程，并且还加入了非线性激活函数，从而可以增加网络的非线性。计...

2020-02-19 17:07:45 144

原创《动手学深度学习Pytorch版》Task3-过拟合、欠拟合及其解决方案；梯度消失、梯度爆炸

过拟合、欠拟合训练/泛化误差训练误差（training error）和泛化误差（generalization error）。通俗来讲，前者指模型在训练数据集上表现出的误差，后者指模型在任意一个测试数据样本上表现出的误差的期望，并常常通过测试数据集上的误差来近似。欠拟合模型无法得到较低的训练误差，我们将这一现象称作欠拟合（underfitting）过拟合模型的训练误差远小于它...

2020-02-19 15:49:24 158

原创《动手学深度学习Pytorch版》Task2-文本预处理、语言模型、循环神经网络

课程链接：https://www.boyuai.com/elites/course/cZu18YmweLv10OeV文本预处理文本是一类序列数据，一篇文章可以看作是字符或单词的序列，本节将介绍文本数据的常见预处理步骤，预处理通常包括四个步骤：读入文本分词建立字典，将每个词映射到一个唯一的索引（index）将文本从词的序列转换为索引的序列，方便输入模型有很多现成的分词工具包可以使用...

2020-02-14 15:41:47 213

原创《动手学深度学习Pytorch版》Task1-线性回归、softmax与分类模型、多层感知机

知识点线性回归模型比如房价预测的线性模型 price=warea⋅area+wage⋅age+bprice=w_{area} ⋅ area + w_{age} ⋅ age + bprice=warea⋅area+wage⋅age+b损失函数有很多可以选择，比如mse，rmse，mae等等mse:li(w,b)=12(y^i−yi)2mse: l^i(\textbf w...

2020-02-14 15:10:47 200

原创为什么 feature scaling 会使 gradient descent 的收敛更好？

个人认为比较好的解释是：首先，对于gradient descent算法来说，learning rate的大小对其收敛速度至关重要。如果feature的scale不同，理论上不同的feature就需要设置不同的learning rate，但是gradient descent只有一个learning rate，这就导致不同feature的收敛效果不同，从而影响总体的收敛效果。所以在求解模型之前归一化

2017-07-13 09:55:42 446

原创 AngularJS+Ionic+Cordova 初步认识

目前的手机APP有三类：原生APP，WebAPP，HybridApp；HybridApp结合了前两类APP各自的优点，越来越流行。

2017-06-23 20:53:17 408

原创 Web项目导入jar包出现java.lang.NoClassDefFoundError错误

今天被这个东西坑了好久，后来才找到答案注意web项目和普通 java项目导入jar包有所不同，web项目需要先将要jar包复制到本地磁盘上（文件存放位置就是项目的路径下面WEB-INF/lib这个文件夹下面，如图）我的eclipse版本是 neon，如果不一样请机智的小伙伴们自行找到对应路径。下一步，右键web项目，点击refresh（刷新），lib下面就会出现导

2017-05-22 18:42:26 4311

原创重新再来

再起重新捡起博客，因为发现在学习各种知识的过程中，有时候看到好的东西，过去了就没了。养成写博客的好习惯，转载原创总结也是极好的。加油！

2017-05-19 11:05:06 307

原创 POJ2407-Relatives（欧拉函数裸题）

这个不想多说简单的编程实现欧拉函数就行φ(n)=p^k-p^(k-1)=(p-1)p^(k-1) #include #include #include using namespace std;int Eular(int n){ int i,ans=1; for(i=2;i*i<=n;i++){ if(n%i==0){

2015-11-07 09:57:46 300

转载如何在CSDN博客中的所贴的代码进行【代码块】显示

笔者最近很喜欢在csdn发一些技术博客，可是看了别人的博客，有代码的地方总是可以显示出代码块，而自己贴上去的代码总是没有。刚开始还以为CSDN博客里面的编辑功能有，可是找来找去都没有找到。后来才发现原来需要自己在源码上进行修改的，现在显示成功了，将这种经验与大家分享。如何将自己的代码贴上去显示这种效果？方法很简单：【1】、将CSDN的博客

2015-11-06 13:55:23 268

原创 HDU5410-CRB and His Birthday

题目大意：有m个货币，n种商品，买x(x>0)个某种商品就能得到a*x+b个糖果，问如果使得到的糖果数最多。题目解析：很容易看出是一道背包题，难点在于a*x+b怎么处理。可以把一种商品分成两种，两种消耗都是w[i],其中一种价值为a[i]+b[i],只能买一个；另一种价值为a[i]，可以买任意数量。这就转换为01背包+完全背包了。代码如下：#include #

2015-11-06 13:42:45 341

转载 Codeforces 571B--Minimization

题意就不说了很好懂。刚见到这道题，完全没想到DP。后参考了该博客http://blog.csdn.net/glqac/article/details/47990077决定写一篇稍微简单详细一点的题解给同为弱渣的同学参考。

2015-11-04 23:10:09 348

原创 POJ1679-The Unique MST

POJ1679-The Unique MST大致说下题意：有多个case 给出n m ， n代表点数，m代表边数，之后给出m条边，该图的最小生成树是不是唯一的。主要做法就是先用prim求出最小生成树，尝试在加入一条生成树外的边，并删除一条在树内的边，若该操作后，得到的值和原来一样就说明生成树不唯一。另外，要注意不联通的情况,这是也输出"Not Unique!"附代码：#include<iost

2015-11-04 19:20:00 289

Tylor_ljh的博客