![](https://img-blog.csdnimg.cn/direct/ed9b61d360db473c98e4fcc0dbf09753.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
深度学习
深度学习、神经网络等。
晓源Galois
找工作状态
展开
-
晓源|吴恩达——深度学习专栏
2.11 向量化vectorization原创 2023-12-27 19:14:20 · 357 阅读 · 1 评论 -
深度学习|Autoregression自回归
回归是用x去拟合出函数出来,而自回归是用之前的y去拟合出函数。原创 2024-01-27 00:38:44 · 125 阅读 · 0 评论 -
大模型|基础——长短时记忆网络
这个参数是来自上一层的,也就是对应地,也要给下一层通过计算提供出。如果通过计算,计算出来的结果为0,就选择遗弃。代表激活函数,会将输出归于0到1之间的值。如果遗忘,相当于对过去信息直接进行丢弃。如果信息不重要,可以通过遗忘门进行遗忘。遗忘门,是否进行遗忘。原创 2024-01-26 12:05:55 · 1089 阅读 · 0 评论 -
Transformer|1.4 CNN遇到的问题与窘境
而CNN在多层卷积后才有这个机会。(比如最开始是3x3的卷积,下一层是9x9的卷积,只有在下一层时才能够看到其他8个3x3的卷积部分)判断一个人是否为美人,既要看她各个五官,也要看她各个五官占的比例和协调。局部信息用小的感受野进行感受,而全局信息用大的感受野进行感受。0号token在第一层就可以看到其它所有的token。既要照顾好局部信息,也要照顾好全局信息。原创 2024-01-20 23:55:14 · 579 阅读 · 0 评论 -
Transformer|对图像数据构造patch序列+VIT整体架构解读(需进一步完善)
使其关注到所值得关注的。原创 2024-01-20 12:05:03 · 439 阅读 · 0 评论 -
transformer | transformer的输入部分input coding
然后统计byte gram,选出出现次数最多的byte gram,将其塞入到词表中,若组成的byte gram使得原本单独的部分无其他非组成该byte gram的情况,则该部分需要从原先的词表进行删除。然后向量是具有空间的,通过和积化差可以得到这个向量是由于某些向量线性组合而成,而线性组合也有对应的空间表示,从而通过线性组合区分位置关系。(位置信息是很重要的,词的意思可通过上下文进一步明确,上文放在下文,可能就有不同的意思存在)pos是指位置,比如说“我爱你”中的“爱”的位置为第二。原创 2024-01-30 17:32:28 · 1319 阅读 · 2 评论 -
python|切片
(2)start_index:表示的是起始索引(包含该索引本身),意思是从这里开始数数。(1)step步长:有正负,正表示正着走,负表示负着走,步长的绝对值代表一步走的距离。(3)end_index:表示的是终止索引(不包含索引本身),意思是数到这里停止。start_index、end_index在不填的情况下,则默认从端点开始。的说法,代表着下次卷积运算发生位置与本次卷积运算发生位置的距离差)(其中,在深度学习中卷积也有。原创 2024-01-13 17:10:54 · 428 阅读 · 0 评论 -
神经网络|张量tensor(待完善)
张量是用来探究一个点在各个切面(一共三个切面)和各个方向(x,y,z三个方向)上的受力情况。所以一共有九种情况,可以用一个3x3的矩阵进行存储。探究长方体内某一个节点的受力情况。原创 2024-01-13 03:07:06 · 493 阅读 · 0 评论 -
python|vscode配置python环境
阿正的梦工坊——Mac电脑配置李沐深度学习环境[pytorch版本]使用vscode原创 2024-01-08 10:13:18 · 388 阅读 · 0 评论 -
深度学习|均方误差
将每一个样本点的误差(真实值减去预测值)平方求和,然后取平均。原创 2023-12-27 19:26:47 · 394 阅读 · 1 评论 -
深度学习|泛化能力
比如餐馆老板根据顾客的身板来打饭。如果常来的顾客的身板小,餐馆老板给这些顾客打饭的量就小了,此刻再来一个彪形大汉,但餐馆老板仍旧给这个彪形大汉大汉打了一碗小米饭,这就说明餐馆老板的泛化能力很弱。泛化能力是指适应训练集的情况下,对新数据仍旧存在的判断能力。原创 2023-12-27 19:54:58 · 427 阅读 · 1 评论 -
深度学习|交叉熵
熵是用来衡量一个系统的混乱程度,混乱程度也其实代表着整个系统内部的不确定性。信息量并不是指任意一种信息的量,它是指有助于减少系统内部不确定性的信息的量的大小。也就是说信息量越大,系统混乱程度越小,熵也就越小。而接下来的问题是怎么去衡量信息量的大小。或者换种想法,这个衡量是用什么体系,用什么标准下去衡量(比如说人的生命在法律体系中是无价的,但在资本市场中,人的生命可以转化为劳动力商品,用工资进行结算)原创 2024-01-06 19:49:06 · 1649 阅读 · 0 评论 -
深度学习|2.2 逻辑回归
如上图,给定x,x是指含有某一个特定事物的多个特征组成的向量,Py1∣x是指在x的情况下,y被判定为1的概率。简言之,就是在知道多个特征的情况下,将某某东西猜成是某一个特定事物的概率。原创 2023-12-27 20:59:54 · 590 阅读 · 0 评论 -
深度学习|2.4 梯度下降
斜率可以理解成在朝着x正方向移动单位距离所形成的损失值的变化,如果损失值变大,那么x往负方向移动;如果斜率为负,损失值变小,说明可以继续往正方向移动,应该要加上一个正值。是由w和b两个参数共同控制的损失函数,损失是不好的东西,所以应该求取合适的w和b使得损失最小化。学习率越小,参数变化就越小,越容易收缩到一个定值。为了简单考虑,可以先忽略参数b。其中学习率用于控制变化的过程。原创 2024-01-02 15:37:03 · 563 阅读 · 0 评论 -
深度学习|2.7计算图 2.8 计算图求导数
用流程图表示出计算流程。原创 2023-12-30 10:38:48 · 347 阅读 · 0 评论 -
深度学习|2.11 向量化vectorization
向量化可以使得向量中的每一个维度的数据进行并行计算,从而加快了神经网络的计算速度。原创 2023-12-27 16:03:12 · 491 阅读 · 1 评论 -
深度学习|3.6 激活函数 3.7 为什么需要非线性激活函数
主要有sigmoid函数、tanh函数、relu函数和leaky relu函数tanh函数相比sigmoid函数是具有优势的,因为tanh函数使得输出值的平均值为0,而sigmoid函数使得输出值的平均值为1/2,对下一层来说tanh输出的0更好进行处理。原创 2023-12-31 03:47:33 · 520 阅读 · 0 评论 -
深度学习|4.7 参数和超参数
超参数是指需要用户提前设置好的参数,这些超参数最终会影响到参数的数值(相当于参数是动态调整得到的)原创 2024-01-07 20:15:16 · 398 阅读 · 0 评论 -
深度学习|5.2 偏差和方差
Bias(偏差):偏差是指对样本点的估计值和实际值的偏离程度。偏差越大,样本点越不符合实际值。偏差衡量单个数据点的偏离程度,如下图的第二行。Variance(方差):方差能代表对样本点的估计值的范围,衡量的是数据的聚散程度,如下图的第二列。原创 2023-12-27 20:20:34 · 589 阅读 · 1 评论 -
深度学习|6.1 小批量梯度下降
把大数据集分成多批数据,每批数据分别计算他们的损失(可以并发处理,从而节省运行时间),最后将其取平均,作为整体的结果,然后参与到梯度下降的环节中去。原创 2024-01-25 11:34:32 · 370 阅读 · 0 评论 -
深度学习|7.8 softmax回归
softmax层相当于将输出进行归一化,使得模型输出X为各种情况的概率。回归:将给定的条件回归到0到1的数值区间,从而起到充当概率的作用。当出现多类的时候,就需要考虑使用softmax回归。也就是说要使得输出结果符合概率且各种概率之和为1.176.3算是一个总数。而以上是针对二类的。原创 2024-01-08 00:48:45 · 408 阅读 · 0 评论 -
深度学习|10.1 深度学习在计算机视觉的应用
直观上,信息越多,分析的效果应该越好,但也意味着分析的量会越来越大,考虑到分析所需要的时间和空间,往往采用卷积的方式使得神经网络的规模没有那么地大。图像中的每一个像素点都是输入层的一部分。而最终最后只有一个输出点,也就是说需要通过乘上中间层/隐藏层内部的矩阵,从而实现降维。原创 2023-12-31 11:44:37 · 767 阅读 · 4 评论 -
深度学习|10.2 边缘检测示例 10.3 更多边缘检测
原矩阵通过一个过滤器(filter)/核心(kernel)来生成一个新的矩阵。原创 2023-12-31 12:19:29 · 650 阅读 · 0 评论 -
深度学习|10.4 填充
首先有个问题就是nxn的矩阵用fxf的过滤器可以生成多大的矩阵由于从一个nxn的矩阵变成一个n−f1×n−f1的矩阵,矩阵规模变小了,也就意味着有些信息是丢失的(如果不可逆的话)。原创 2023-12-31 22:52:54 · 496 阅读 · 0 评论 -
深度学习|10.5 卷积步长 10.6 三维卷积
设步长为k,原矩阵规模为nxn,核矩阵规模为fxf,则k+k+k+k+…+k+f原创 2024-01-01 10:26:58 · 608 阅读 · 0 评论 -
深度学习|15.2 注释、one-hot
建立一个关于姓名的字典。在识别过程中,查找字典中是否存在相关的记录,若有,则大概率是姓名。注意的是,商业级需要3到5万或10万,需要查找速度也要进一步进行优化。原创 2024-01-01 21:44:20 · 359 阅读 · 0 评论 -
深度学习|16.1 词表示、embedding
若有n类词,则用n维向量对单个类进行区分。在这个n维向量里面第i维为1,则说明这是第i个词,并且要求其他位置都是为0.每一类词都有对应的一个多维的特征向量,这个特征向量描述了这类词和各个属性的相关性。所谓嵌入就是将低维向量放入到高维空间的做法。性质更加相像的事物会聚集到一起去。原创 2024-01-19 11:01:13 · 343 阅读 · 0 评论 -
深度学习|17.7 注意力模型直觉
那么将可以使用一个双向RNN去计算出在生成某一个对应的英语单词时原法语句子中各个法语单词中注意力的分配比例,从而生成的英语单词将受到不同法语单词的不同影响。传统模型有两个缺点,一是分析短句子效果不佳(缺少上下文作为信息支撑);二是对于长句子而言,模型无法记忆较早的信息,从而丢失前面较早的依据。假设使用一个注意力机制去处理将法语句子翻译成英语句子的过程。原创 2024-01-10 16:11:19 · 418 阅读 · 0 评论