
机器学习深度学习
文章平均质量分 80
头发没了还会再长
你不需要很厉害才开始,但你要开始才能很厉害
展开
-
代码实现—多头自注意力&多头交叉注意力
多头注意力(Multi-Head Attention)是一种基于自注意力机制(self-attention)的改进方法。自注意力是一种能够计算出输入序列中每个位置的权重,因此可以很好地处理序列中长距离依赖关系的问题。但在应用中,可能存在多个不同的关注点,因此就需要多个自注意力机制来处理不同的关注点。多头注意力就是在一个输入序列上使用多个自注意力机制,得到多组注意力结果,然后将这些结果进行拼接和线性投影得到最终输出。原创 2023-11-19 11:17:47 · 4281 阅读 · 0 评论 -
【李宏毅】-生成对抗式网络(GAN)
输入不再是只是x,还有一个simple distribution(样本分布),输出也是一个分布。尤其在任务需要的时候,需要分布。原创 2023-04-10 16:44:40 · 1105 阅读 · 1 评论 -
【李宏毅】-各种各样的self-attention
在中有讲关于注意力机制,其中,我们需要计算三个矩阵——Q,K,V ,如果序列长度为N,那么三个矩阵的大小都是NxN,这将导致注意力机制计算量很大!原创 2023-03-26 22:08:04 · 665 阅读 · 0 评论 -
【李宏毅】机器学习-RNN
为什么需要RNN?RNN为什么有记忆力?举例说明原创 2022-11-17 12:07:01 · 707 阅读 · 1 评论 -
【李宏毅】深度学习-CNN(影像辨识为例)
以上两个优化,分别是每个神经元考虑一个Receptive Filed来减小输入参数,不同的Receptive Filed共享相同的参数,共享通过filter实现而使用了Convolutional Layer的网络就叫做Convolutionnal Layer其实就是计算卷积,关于图像的卷积运算,CSDN很多讲解的很好的博客可以参考,这里不做详细解释。有多少个filter就会产生多少个channel,每一个filter的高度也要跟输入channel保持一致的。原创 2022-11-10 12:04:53 · 886 阅读 · 0 评论 -
Transformer代码实现【pytorch】
【代码】Transformer代码实现【pytorch】原创 2022-11-06 23:41:33 · 2007 阅读 · 0 评论 -
【李宏毅】注意力机制+transformer详解
详细讲解自注意力机制的计算,Encoder和Decoder部分的每一个模块原创 2022-11-06 14:57:07 · 7698 阅读 · 0 评论 -
如何理解attention中的Q、K、V
Q:QueryK:KeyV:Value其实是三个矩阵,矩阵如果表示为LxD,L是句子中词的个数,D是嵌入维度,在自注意力机制里,QKV是表示同一个句子的矩阵,否则KV一般是来自一个句子,而Q来自其他句子可以通过这三个线性变换query,key,value得到我们想要的QKV,其中三个变换的输入都是768维,输出都是768维将该矩阵输入上面的三个线性转换,就可以得到三个矩阵KQV,,维度其实没有改变。原创 2022-10-28 14:40:21 · 13070 阅读 · 1 评论 -
生成对抗网络GAN基本原理
监督学习:训练时需要的数据集是人工标注的,但这种数据集难以获取且成本高昂。GAN能自动判断进行标注,且可以自动优化,效率很高且成本很低。原创 2022-09-17 19:19:46 · 457 阅读 · 0 评论 -
动手学习深度学习——锚框
我们以图像的每个像素为中心生成不同形状的锚框。交并比(IoU)也被称为杰卡德系数,用于衡量两个边界框的相似性。它是相交面积与相并面积的比率。在训练集中,我们需要给每个锚框两种类型的标签。一个是与锚框中目标检测的类别,另一个是锚框真实相对于边界框的偏移量。在预测期间,我们可以使用非极大值抑制(NMS)来移除类似的预测边界框,从而简化输出。...原创 2022-08-16 17:47:42 · 1139 阅读 · 0 评论 -
动手学习深度学习——房价预测(详细注释)
代码+详细注释里面设计到的不懂的函数,可以查看这个博客原创 2022-07-12 21:05:17 · 1763 阅读 · 0 评论 -
动手学习深度学习中遇到的一些函数
参数:使用从正态分布 N(mean,std2) 中提取的值填充输入张量。例子、参数:根据给定的张量,生成与其形状相同的全为0或者全为1的张量例子参数:x为单个数,y为列表:求x的y[:]次幂x为列表,y为单个数:求x[:]的y次幂x为列表,y为列表,x的行数和y的行数相同:x元素对应的y次幂x为列表,y为列表,x的行数等于y的列数:每一行求对应列的次幂成为一行4.math.gamma()参数:返回(x-1)的阶乘例子:5.np.dot()参数:原创 2022-07-10 18:11:22 · 1390 阅读 · 0 评论 -
动手学深度学习——softmax回归
softmax其实是一个分类问题原创 2022-07-08 09:43:57 · 252 阅读 · 0 评论 -
深度学习——嵌入矩阵and学习词嵌入andWord2Vec
在 softmax 分类器中如何学到词向量,但是计算成本很高。如何通过将其转化为一系列二分类问题使你可以非常有效的学习词向量。如果你使用这个算法,你将可以学到相当好的词向量。当然和深度学习的其他领域一样,有很多开源的实现,当然也有预训练过的词向量,就是其他人训练过的然后授权许可发布在网上的,所以如果你想要在 NLP 问题上取得进展,去下载其他人的词向量是很好的方法,在此基础上改进。...原创 2022-06-29 19:18:18 · 1462 阅读 · 0 评论 -
深度学习——使用词嵌入and词嵌入特征
词嵌入是如何被用于类比推理的,可能你不会自己动手构建一个类比推理系统作为一项应用,不过希望在这些可学习的类特征的表示方式能够给你一些直观的感受。你还看知道了余弦相似度可以作为一种衡量两个词嵌入向量间相似度的办法,我们谈了许多有关这些嵌入的特性,以及如何使用它们。...原创 2022-06-28 17:50:07 · 514 阅读 · 0 评论 -
深度学习——词汇表征
词嵌入已经是 NLP 领域最重要的概念之一了,在自然语言处理领域原创 2022-06-28 16:45:23 · 495 阅读 · 0 评论 -
深度学习——BRNN和DRNN
不同 RNN 的版本,每一个都可以独当一面。但是要学习非常复杂的函数,通常我们会把 RNN 的多个层堆叠在一起构建更深的模型。原创 2022-06-28 15:06:54 · 750 阅读 · 0 评论 -
深度学习——LSTM
GRU 的优点是这是个更加简单的模型,所以更容易创建一个更大的网络,而且它只有两个门,在计算性上也运行得更快,然后它可以扩大模型的规模。但是 LSTM 更加强大和灵活,因为它有三个门而不是两个。如果你想选一个使用,我认为 LSTM 在历史进程上是个更优先的选择,所以如果你必须选一个,我感觉今天大部分的人还是会把 LSTM 作为默认的选择来尝试。虽然我认为最近几年 GRU 获得了很多支持,而且我感觉越来越多的团队也正在使用 GRU,因为它更加简单,而且还效果还不错,它更容易适应规模更加大的问题。...原创 2022-06-28 14:16:12 · 780 阅读 · 0 评论 -
深度学习——GRU单元
所以这就是 GRU,即门控循环单元,这是 RNN 的其中之一。这个结构可以更好捕捉非常长范围的依赖,让 RNN 更加有效。原创 2022-06-28 13:33:36 · 810 阅读 · 0 评论 -
深度学习——语言模型和序列生成
让语音识别系统去选择第二个句子的方法就是使用一个语言模型,他能计算出这两句话各自的可能性。原创 2022-06-28 11:01:57 · 297 阅读 · 0 评论 -
深度学习——循环神经网络
了解前向和反向传播是如何在 RNN 中工作的原创 2022-06-27 13:08:21 · 775 阅读 · 0 评论 -
深度学习——序列模型and数学符号
语音识别/音乐生成问题/处理情感分类/ DNA 序列分析/机器翻译/视频行为识别/命名实体识别原创 2022-06-27 11:24:14 · 936 阅读 · 0 评论 -
深度学习——Bounding Box预测
它显式地输出边界框坐标,所以这能让神经网络输出边界框,可以具有任意宽高比,并且能输出更精确的坐标,不会受到滑动窗口分类器的步长大小限制。其次,这是一个卷积实现,你并没有在 3×3 网格上跑 9 次算法,或者,如果你用的是 19×19 的网格,19 平方是 361 次,所以你不需要让同一个算法跑 361 次。相反,这是单次卷积实现,但你使用了一个卷积网络,有很多共享计算步骤,在处理这 3×3 计算中很多计算步骤是共享的,或者你的 19×19 的网格,所以这个算法效率很高。...原创 2022-06-25 21:50:56 · 989 阅读 · 0 评论 -
深度学习——卷积的滑动窗口实现
总结一下滑动窗口的实现过程,在图片上剪切出一块区域,假设它的大小是 14×14,把它输入到卷积网络。继续输入下一块区域,大小同样是 14×14,重复操作,直到某个区域识别到汽车。原创 2022-06-25 21:11:58 · 1384 阅读 · 0 评论 -
深度学习——特征点检测和目标检测
神经网络可以通过输出图片上特征点的(𝑥, 𝑦)坐标来实现对目标特征的识别。学习如何通过卷积网络进行对象检测,采用的是基于滑动窗口的目标检测算法。原创 2022-06-25 20:39:09 · 2092 阅读 · 3 评论 -
深度学习——目标定位
关于学习构建神经网络的另一个问题,即定位分类问题。这意味着,我们不仅要用算法判断图片中是不是一辆汽车,还要在图片中标记出它的位置,用边框或红色方框把汽车圈起来,这就是定位分类问题。...原创 2022-06-25 20:09:12 · 1227 阅读 · 0 评论 -
深度学习——网络中的网络以及1x1卷积
在架构内容设计方面,其中一个比较有帮助的想法是使用 1×1 卷积。原创 2022-06-25 16:00:44 · 257 阅读 · 0 评论 -
深度学习——残差网络ResNets
是由(Residual block)构建的,首先我解释一下什么是残差块。原创 2022-06-25 15:38:00 · 678 阅读 · 0 评论 -
深度学习——几种学习类型
本章节讲解,迁移学习,多任务学习,端到端的学习,通过举例说明这些学习方式的内容记忆使用场景和意义原创 2022-06-24 17:08:43 · 3272 阅读 · 3 评论 -
深度学习——python中的广播
python中的广播,代码示范,numpy的向量原创 2022-06-23 13:05:34 · 298 阅读 · 0 评论 -
机器学习深度学习——向量化
Whenever possible, avoid explicit for-loops原创 2022-06-23 10:31:25 · 607 阅读 · 2 评论 -
深度学习——A Gentle Introduction to Graph Neural Networks
那这两块总结起来就得到了最简单的一个GNN的样子但是,这种方法有一个很大的局限性,每一种信息都是进入一个单独的MLP,并没有考虑这些点是跟哪些边相连的,哪些点是相连的等等,所以并没有合理得把整个图的信息更新到属性里,导致最后的结果不能很好的利用图的信息。那就引入下面一小节解决这个问题信息传递以上讲的都是边和顶点的交换,接下来说全局信息这篇博客参考的视频:李牧老师视频里讲解的博客连接:博客原创 2022-06-01 18:01:40 · 382 阅读 · 0 评论 -
深度学习——P14、P15 Graph Neural Network
怎么在图这种structure上做convolution,有两种方法,Spatial-based和Spectral-based,重点的两个模型是GAT和GCN传播-卷积神经网络接下来的这一节课程,由于缺乏信号量知识,我没听懂。。课程地址给大家:课程我去找找别的GNN方面的课程,如果学到了有用知识点,会接着更新的原创 2022-06-01 14:47:09 · 201 阅读 · 0 评论 -
深度学习——P13 Convolutional neural network
CNN(卷积神经网络)Why CNN for imageDNN也可以处理图像,为什么我们用CNN呢?首先,DNN全连接层比较复杂,参数较多,但其中可能有些neuron是不必要的,CNN就是用来简化DNN,基于下面的特征:有一些模式可能是很小的一部分,不必看整张图片,比如识别一只鸟,如果一个neuron只需要识别鸟嘴,那只要给这个neuron这个图片鸟嘴部分就行了,所以一个neuron只需要连接鸟嘴部分就行,而不是整张图相同的模式可能出现在一张图片的不同的部分,但他们的形状是一样的,代表同样原创 2022-05-31 22:08:18 · 400 阅读 · 2 评论 -
深度学习——P14 tips for training DNN
DNN(Deep Neural Network)关于深度神经网络(Deep Neural Network)训练过程中的一些方法和技巧机器学习三步骤如果model在testing data上得到的结果不好就一定是过拟合吗?并不是,我们要回到training data上进行测试如果在training data上的结果就是不好的,那说明这个model本身就不好,并不是因为overfitting如果在training data上的结果是好的,在testing data上得到的结果不好,此时才叫ov原创 2022-05-31 17:00:45 · 144 阅读 · 0 评论 -
深度学习——P13 Backpropagation
Backpropagation(反向传播)为什么引入反向传播算法?因为在神经网络中用gradient descent太复杂Chain rule因为反向传播算法主要是链式法则的应用,所以补充链式法则两个例子:以每一层都是两个神经元的全连接神经网络为例:在神经网络中计算Loss的时候,是先求出来每一个output的C,再对这些C求和损失函数和对损失函数求偏微分如下:那这个式子就可以转化成对n个C分别求偏微分,那也就是单独计算出每一个C,求偏微分,在得到Loss,假设先考虑一个neuro原创 2022-05-30 13:42:38 · 205 阅读 · 0 评论 -
深度学习——P12 brief introduction
深度学习development of deep learningThree step of deep learningstep 1这个function其实就是一个neural network,就是将所有的logistics regression连接在一起,用不同的方法连接这些logistics regression,就可以得到不同的structure,每一个logistics regression都有自己的weight跟bias,这些weight跟bias结合起来,就是这个neural work原创 2022-05-29 23:50:05 · 161 阅读 · 2 评论 -
机器学习——P10 Classification
Classification机器学习的另一经典问题——分类,与回归的“预测数值”不同,分类需要“预测标签”。generative model(生成模型)可以预测任意x在模型中出现的概率,所以我们可以自己生成这个xQ:为什么是生成模型?A:假设数据遵循一个均值为μ \muμ、协方差矩阵为Σ \SigmaΣ的高斯分布。利用从高斯分布中生成数据的概率,即似然(likelihood),来估计P ( x ∣ C 1 ) (从类别C 1 中任取一个样本,它是x的概率)Probability from原创 2022-05-29 16:00:44 · 221 阅读 · 2 评论 -
机器学习——P5 Gradient Descent
Gradient Descent1.手动调整learning rate在前面的Loss函数里,用梯度下降找到最小值,梯度下降求解用到的公式里面减去一个η乘上偏微分,那这个η的取值就决定了梯度下降的幅度了,如果η太大,我们可能永远无法走到最小值,如果η太小,那可能非常费时,所以要手动调整η的大小,找到一个最好的2.Adagrad随机梯度下降对所有的参数都使用的固定的学习率进行参数更新,但是不同的参数梯度可能不一样,所以需要不同的学习率才能比较好的进行训练,但是这个事情又不能很好地被人为操作,所以想找原创 2022-05-29 11:50:19 · 159 阅读 · 0 评论 -
机器学习——P4 Basic Concept
误差误差来源——bias(偏差)和 variance(方差)偏差就是model里的所有function得到的y与y hat的差距,就像往靶子上射击,所有的射击到的点都离靶心很远 ,像下面的Large Bias图,那么偏差就大,而下面Small Bias射击的点离靶心有近有远,但平均值小,那么偏差就小。方差就是model里的所有的function得到的y之间的差距,就是射击在靶子上的点之间的差距,像Large bias图,射击的点之间距离都很小,那么方差就小,而Small Bias图则相反。回归中原创 2022-05-28 21:10:17 · 231 阅读 · 0 评论