自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 多种多样的self-attention

多种多样的self-attentionlocal/truncated attention 只看自己和前后一个向量之间的attention.stride attention 自己选择看自己和之外的距离多远的向量的attention.global attention, 在原来的sequence里面加入一个特殊的token(令牌), 表示这个位置要做global attention.global attention中的token会做两件事:当前的token他会attend到sequence里的每一个

2022-03-27 18:43:41 1160

原创 Transformer(未完成)

Transformer是一个sequence to sequence(seq2seq)的模型即是一个输入是一个sequence, 输出是一个sequence. 并且输出的sequence的长度由模型来决定.如语音辨识: 输入是声音信号, 输出是语音识别的文字. 或者翻译: 输入一种语言输出另一种语言.虽然seq2seq可以解决各式各样的的问题, 但是不见得是最好用的. 针对问题客制化模型会更好, 但是seq2seq还是很厉害的.很多问题虽然并不觉得是seq2seq的model的问题但是也可以用它硬

2022-03-27 18:40:28 547

原创 第六节 Self-attention

第六节 Self-attention这个self-attention想要解决的问题是什么呢?到目前为止,我们的network的input都是一个向量,不论是在预测中还是影像处理上,regression输出是一个scalar,classification的输出可能是一个class。但若是遇到了更加复杂的问题呢?假设输入为一排向量a set of vectors呢,而且输入的向量是会改变的呢vectors may change length。每次给model输入的sequence的数目和sequence

2022-03-27 18:39:23 1063

原创 深度学习好在哪里?

深度学习好在哪里?我们已知陷入了两难的境地:当我们选择一个较为复杂的模型,它所对应的可选方程就会有很多,在最理想的数据集中,我们可以得到更小的loss,但是坏处就是理想和现实训练集训练得到的方程在实际数据集中的loss会有较大的差距。而选择一个较为简单的模型的话,它所对应的可选择的function就会更少。对应的在最理想的数据集中,loss就会比较大。但是训练集所得结果和理想的结果距离就会较小。那有什么手段可以使我们既可以得到较小的理想数据集训练得到的function的loss,还可以减小训练集得到

2022-03-27 18:35:06 429

原创 第五节 Convolutional Neural Network (CNN)

第五节 Convolutional Neural Network (CNN)1. image classification 图像分类首先假设输入模型的所有图片的大小都是固定的。如果图像不一样就线rescale成一样的再放进去。因为是分类,所以每一个目标label y^\bm{\hat y}y^​ 都以one-hot向量的形式表示。这个向量的长度就表示了总共有多少个类。对于一个RGB图像,是一个三维的tensor,一个维度代表长,一个维度代表宽,一个维度代表channel(通道),channel就是R

2022-03-27 18:34:00 620

原创 损失函数(Loss)也可能有影响

4. 损失函数(Loss)也可能有影响(还没看长的版本)在回归问题中,输入一个值,输出一个预测值,通过计算预测值与真实值之间的差距来判断预测的是否准确。在分类问题中,也可以将他看作为一个特殊的回归问题,输入一个值,输出一个预测值,但是如果简单的把分类从线性上挨个罗列出来会产生歧义,例如将类别1的真实值设为1,类别2的真实值设为2,类别3的真实值设为3。那么这里就会默认一个信息,类别1和2相似,类别2和3相似,因为二者的距离更小;而类别1,3则不相似,因为距离大。但是这样的分类并不准确,因为类别之间可能

2022-03-27 18:31:42 3019

原创 第四节 类神经网络训练不起来怎么办

第四节 类神经网络训练不起来怎么办1. saddle point(马鞍点)当gradient太小的时候,大多是这种saddle point情况,而不是local minima。如果出现了saddle point怎么办呢?通常使用泰勒展开解决问题。将Loss Funciton在θ′\bm{\theta '}θ′二阶展开:L(θ)=L(θ′)+(θ−θ′)Tg+12(θ−θ′)TH(θ−θ′)L(\bm{\theta}) = L(\bm{\theta '}) + (\bm{\theta} - \bm{

2022-03-27 18:31:07 371

原创 第三节 backpropagation

第三节 backpropagationL(θ)=∑n=1NCn(θ)L(\bm{\theta}) = \sum ^N _{n=1} C^n(\bm{\theta})L(θ)=∑n=1N​Cn(θ)Cn(θ)C^n(\bm{\theta})Cn(θ)是某一种loss值。上式中的上标n表示第n组数据,如Cn(θ)C^n(\bm{\theta})Cn(θ)表示:第n个数据x输入的结果y与y^之间的距离第n个数据\bm x输入的结果y与\hat y之间的距离第n个数据x输入的结果y与y^​之间的距离。上式若

2022-03-27 18:29:03 68

原创 第二节 深度学习的基本概念简介 下

第二节 深度学习的基本概念简介 下piecewise linear curve = constant(常数) + sum of a set of (linear curves)蓝色方程hard sigmoid只要简单曲线够多就可以逼近任意连续曲线。approximate continuous curves by piecewise linear curve。上面所说简单曲线可以用sigmoid曲线逼近。sigmoid函数为:y = c * 11+e−(b+wx1)\frac {1} {1 + e

2022-03-27 18:28:39 171

原创 深度学习的基本概念简介 上

第一节 深度学习的基本概念简介 上1. 机器学习用语denominator分母numerator分子activation function 激活函数,eg:sigmoid、relu(reactified linear unit max(0, b+wx))induction 归纳sparse稀疏deduction 演绎label 真实值parameter 参数,是函数隐含的,被训练得到的;hyper parameter 超参数,是人为设定的那些参数;global minima 全局最小;

2022-03-27 18:27:44 1187

02-Extract-Latent-Features特征提取

特征提取

2022-10-31

CVAE-ASD自编码器训练过程

CVAE自编码器训练过程

2022-10-31

某款神州笔记本管理面板

某款神州笔记本管理面板

2022-10-31

神州老款超级战神笔记本Hotkey管理面板

神州老款超级战神笔记本Hotkey管理面板、风扇等可以这里调整

2022-10-31

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除