算法
Jason160918
擅长于AI算法创新,增加辅导学生发表50余篇SCI和CCF
展开
-
FlashAttention的核心优化原理解析(快收藏)
这个代码实现了一个基本的注意力机制,其中包括将输入分割成多个头、计算查询和键之间的得分、应用 softmax 函数进行归一化、结合值,以及最后的输出线性层。请注意,这不是一个完整的、优化的实现,而是为了演示其核心思想而设计的。在传统的注意力机制中,计算过程需要频繁地读写内存,这会导致显著的延迟。它对矩阵乘法(Transformer 中注意力机制的关键操作)进行了优化,以减少不必要的计算和提高并行处理能力。对于长序列,FlashAttention 可能采用分块处理的方法,将长序列分成较小的部分进行并行计算。原创 2024-01-29 16:31:50 · 783 阅读 · 0 评论 -
Transformer跨模态领域的全面SOTA应用(快收藏)
👉计算机视觉:在计算机视觉领域,Vision Transformer(ViT)已经取得了显著的成就,用于图像分类、对象检测、语义分割等任务。👉自然语言处理(NLP):Transformer 模型,尤其是BERT、GPT 和其变种,已经在各种 NLP 任务上实现了 SOTA 的性能,包括文本分类、命名实体识别、情感分析、机器翻译和问答系统等。✔️Transformer 确实在多个领域都取得了巨大的成功,并成为了许多任务的 SOTA(State-of-the-Art)模型。原创 2024-01-27 10:38:13 · 486 阅读 · 0 评论 -
注意力机制23种魔改方法汇总
注意力机制的基本思想是在处理一组输入(比如一个句子中的单词)时,模型应该能够“关注”到其中最重要的部分。下面是一个简单的注意力机制的实现,使用Python和PyTorch。这个例子将实现一个简单的基于查询(Query)、键(Key)和值(Value)的注意力机制。层次注意力(Hierarchical Attention):多级别的注意力机制,适用于复杂结构。自注意力(Self-Attention):一个序列内部元素间的注意力机制。混合注意力(Hybrid Attention):结合不同类型的注意力机制。原创 2024-01-27 10:34:07 · 1644 阅读 · 0 评论 -
快收藏!!自注意力机制创新点合集
快收藏!!自注意力机制创新点合集🤢 算法优化和扩展在自注意力机制的算法优化方面,今年的创新主要集中在提高模型的性能和适应性。例如,Transformer模型的变体,如Swin Transformer和Vision Transformer,针对特定任务进行了优化。Swin Transformer通过采用层次化的结构和移动窗口的策略,有效地减少了计算复杂度,并提升了在大规模视觉任务中的性能。此外,为了更好地处理序列数据,研究者们也开发了递归Transformer结构,这种结构结合了递归神经原创 2024-01-01 17:12:41 · 491 阅读 · 0 评论 -
如何向深度学习模型中加入先验知识❓(快收藏)
9️⃣损失函数上也可以加,比如你的任务对边界很敏感,你就可以使用边界敏感的损失函数,来约束网络学习。3️⃣迁移学习、模型蒸馏(树模型蒸馏给transformer)5️⃣不同性质的特征作为不同的输入头。4️⃣重要的特征放得离输出近。原创 2024-01-15 16:48:56 · 809 阅读 · 0 评论 -
如何训练神经网络❓
反向传播:反向传播是用于训练神经网络的关键算法,它基于梯度下降的思想,通过计算损失函数关于权重和偏差的梯度来更新网络参数。2️⃣反向传播误差:从输出层开始,计算每个神经元对损失的贡献,并将误差传播回前面的层。4️⃣重复迭代:反复执行前向传播和反向传播的步骤,直到达到预定的停止条件(如达到最大迭代次数或损失函数收敛)。3️⃣更新参数:根据计算得到的梯度信息,利用梯度下降优化算法更新网络中的权重和偏差,以减小损失函数的值。2️⃣在每个隐藏层和输出层的神经元中,计算加权和(根据输入值和神经元的权重)。原创 2024-01-20 00:00:00 · 459 阅读 · 0 评论 -
神经网络的优化方法是什么❓(快收藏)
1️⃣梯度下降法(Gradient Descent):梯度下降是最常见的优化算法之一,通过计算损失函数关于参数的梯度来更新网络中的权重和偏差。常见的方法包括固定学习率、指数衰减、余弦退火等。L2正则化(L2 Regularization):通过在损失函数中添加所有权重的平方和的乘以一个正则化参数,促使网络学习较小的权重,也称为权重衰减(Weight Decay)。L1正则化(L1 Regularization):通过在损失函数中添加所有权重的绝对值之和的乘以一个正则化参数,促使网络学习稀疏权重。原创 2024-01-19 00:00:00 · 1033 阅读 · 0 评论 -
2023年混合注意力机制神经网络及其应用策略(快收藏)
最新的变体可能结合空间注意力或其他形式的注意力机制,以适应更广泛的应用,比如图像识别或多模态学习。做法:CBAM先后应用空间注意力和通道注意力。做法:在如EfficientNet这类高效的网络架构中引入注意力机制,比如使用SE模块或其他形式的注意力来增强特征提取能力。策略:利用Transformer的强大序列处理能力,并通过额外的注意力机制来增强对特定类型数据(如图像、视频)的处理能力。3️⃣细粒度注意力:探索更加细粒度的注意力机制,如在图像处理中针对特定区域或对象,或在NLP中针对特定词语或短语。原创 2024-01-18 00:00:00 · 580 阅读 · 0 评论 -
神经网络算法 - 一文搞懂Encoder-Decoder✨(快收藏)
从Encoder-Decoder的本质、Encoder-Decoder的原理方面,带你搞懂Encoder-Decoder(编码器-解码器)。👉Encoder-Decoder(编码器-解码器):强调模型的实现方法——提供实现这一目的的具体方法或架构。在每个时间步,解码器会基于上一个时间步的输出、当前的隐藏状态和上下文向量来生成当前时间步的输出。👉Seq2Seq(序列到序列):强调模型的目的——将输入序列转换为输出序列。👉Decoder (解码器):“求解数学问题,并转化为现实世界的解决方案”原创 2024-01-17 10:15:00 · 779 阅读 · 0 评论 -
不同神经网络特征如何融合❓(快收藏)
不同神经网络特征的融合是深度学习中一个重要的研究领域,特别是在处理需要综合多种数据类型或不同视角的复杂任务时。适用情景:当不同特征在原始空间中具有相似的结构或性质时,例如多个传感器获取的时间序列数据。操作:构建多个并行的网络分支处理不同特征,然后在多个层级交叉融合这些分支的特征。操作:分别训练不同的神经网络,然后在网络的高层(如决策层)融合各自的输出特征。🕳️实验验证:通过实验来验证不同融合策略对任务性能的影响,选择最适合的方法。优点:结合了早期融合和晚期融合的优势,可以捕捉深层特征间的复杂关系。原创 2024-01-16 08:15:00 · 1962 阅读 · 0 评论 -
Transformer跨模态领域的全面SOTA应用
👉计算机视觉:在计算机视觉领域,Vision Transformer(ViT)已经取得了显著的成就,用于图像分类、对象检测、语义分割等任务。👉自然语言处理(NLP):Transformer 模型,尤其是BERT、GPT 和其变种,已经在各种 NLP 任务上实现了 SOTA 的性能,包括文本分类、命名实体识别、情感分析、机器翻译和问答系统等。👉强化学习:Transformer 架构在强化学习中的应用也受到关注,特别是在自动对话代理、游戏玩法和机器人控制等领域。原创 2024-01-15 16:42:24 · 392 阅读 · 0 评论 -
深度学习10种attention机制(快收藏)
6️⃣层次注意力(Hierarchical Attention):在多层次结构(如文档、段落、句子)中使用,分别对不同层级的数据应用注意力。9️⃣协同注意力(Co-Attention):在多模态学习中使用,比如结合视觉和文本信息,模型在两种类型的数据上同时应用注意力。7️⃣时间注意力(Temporal Attention):用于处理时序数据,如视频分析或音频处理,关注时间序列的不同部分。Soft Attention:一种灵活的注意力分配方式,允许模型在序列的不同部分分配不同程度的关注。原创 2024-01-13 11:16:13 · 895 阅读 · 0 评论 -
为什么深度神经网络这么难训练?【10秒告诉答案】
网络的深度增加后,梯度(用于网络参数更新的值)在传播过程中可能会变得非常小(消失)或非常大(爆炸)。这使得它在错误的时候难以进行调试,同时也无法提供其决策过程的透明度。这是因为网络需要在大量的数据上进行前向和后向传播,以更新其数百万的参数。2.过拟合:深度神经网络拥有大量可训练参数,很容易在训练数据上过度学习,即过拟合,这会导致它在未见过的新数据上的表现非常差。4.需要大量的标注数据:深度神经网络通常需要大量标注数据进行训练,这在某些领域内可能是不可行或者成本非常高的。原创 2024-01-12 12:20:07 · 796 阅读 · 0 评论 -
深度学习”和“多层神经网络”的区别
它们是神经网络的一种特殊类型,包含一个输入层,一个或多个隐藏层和一个输出层。深度学习是一个涵盖了许多不同类型的神经网络模型(包括但不限于卷积神经网络,递归神经网络,自编码器等)的宽泛领域,而多层神经网络则是一个更为具体和有限的概念,仅仅包含了具体数量的层和神经元,其结构相对简单。总的来说,深度学习可以看作是多层神经网络的扩展,它可以处理更为复杂和抽象的任务,如语音识别,自然语言处理等。然而,这两种技术有着共同的目标,那就是学习并理解数据中的模式,以便进行准确的预测和决策。原创 2024-01-11 16:00:34 · 790 阅读 · 0 评论 -
深度学习入门到发表顶级会议论文需要多久
记得在大四的时候,我遇到了和你相似的困惑。那时我阅读了大量的论文📰,在阅读过程中,我产生了很多看似独特的想法💡,但是把它们付诸实现后,却并不能提升网络的性能。在复现那些高质量的顶级会议论文的过程中,你会发现许多阅读论文时注意不到的实现细节,这些都会帮助你在解决自己的问题时提出有效的解决思路。另一方面,即使在我所研究的领域,阅读他人的工作或者进行实验时,我也常常发现自己过去的理解是错误或片面的。每个算法都必定是可以复现的,如果我无法复现出来,那必定是因为我实现上的问题,而不是想法本身有问题。原创 2024-01-11 15:59:33 · 547 阅读 · 0 评论 -
一篇读懂生成对抗网络(GAN)原理+tensorflow代码实现(花费10分钟,不要急躁)
作者:JASON 2017.10.15 生成对抗网络GAN(Generative adversarial networks)是最近很火的深度学习方法,要理解它可以把它分成生成模型和判别模型两个部分,简单来说就是:两个人比赛,看是 A 的矛厉害,还是 B 的盾厉害。比如,有一个业余画家总喜欢仿造著名画家的画,把仿造的画和真实的画混在一起,然后有一个专家想办法来区分那些是真迹,那些原创 2017-10-16 11:40:11 · 19118 阅读 · 2 评论 -
windows10在64位下安装TensorFlow1.5经验贴
python3在安装或者更新TensorFlow1.5CPU版本之前,需做好以下工作: 首先 pip3 install futures-3.2.0 安装包地址 pip3 install absl-py-0.1.10安装包地址 然后 pip3 install path+tensorflow-1.5.0-cp36-cp36m-win_amd64.whltensorflow1.5rc源码安装地址原创 2018-02-01 19:43:27 · 4332 阅读 · 2 评论 -
RNN的原理与TensorFlow代码实现
作者:Jason 时间:2017.10.22 RNN的引出 在没有RNN(循环神经网络)的时候,我们通常使用前馈神经网络来处理时序预测问题。 一、用前馈神经网络处理时间序列预测有什么问题? 依赖受限,网络规格固定:前馈网络是利用窗处理将不同时刻的向量并接成一个更大的向量。以此利用前后发生的事情预测当前所发生的情况。如下图所示: 但其所能考虑到的前后依赖受限于原创 2017-10-22 10:12:56 · 2658 阅读 · 2 评论 -
使用集成学习构建机器学习预测模型
前段时间参加了一家量化投资公司的面试,其中用了集成学习算法,发现效果很好,现在将代码公布出来,以便小白学习,大神请绕道!!!原问题:请结合附件Excel表中的数据完成下列问题: 模型 1)以投资金额为目标变量建立一个线性模型。 2)以投资金额高低区分高投资与低投资用户,以此为目标变量建立逻辑回归模型。 3)以投资金额高低区分高投资与低投资用户,以此为目标变量建立一至两个机器学习模型(G...原创 2018-04-22 20:21:25 · 8182 阅读 · 13 评论 -
LightGBM的黑科技--plot函数
本教程教萌新如何使用lightgbm里面可视化函数本教程适合萌新,大牛请绕道哦,目录如下: [TOC] - 保留训练结果 - plot_metric()函数的使用 - plot_importance函数的使用 - plot_tree()函数的使用 - create_tree_digraph()函数的使用1.下载安装包到本地—–可爱的传送门graphviz的官方安装地址 2...原创 2018-07-09 16:34:44 · 18525 阅读 · 20 评论 -
解决jupyter notebook 总是正在链接服务和无法运行的问题
伙计们,可能像我一下手贱,同时将pycharm里面的所有包都更新了,结构发现notebook打开时候,链接不上了,但是别慌,你只要去pycharm里面把ipython和notebook两个包都升级到最新版就可以了,注意:升级之前,记得关闭notebook一般有待更新的包,这个三角形会亮,只要选中要升级的包,就可以点击三角形运行着重将ipython系列、jupyter系列、notebook升级到...原创 2019-04-17 22:17:46 · 17698 阅读 · 4 评论 -
PIL读取图像颜色失真问题#RGB#灰度图
作者:JasonChen 时间:2019.4.27 博主,今天在做图像识别的项目,需要用到PIL包读取图像,并将其预测结果添加到图像上,可是显示处理的图像和文字的颜色都失真了,如下图所示:而原图像是这种:显然,图像颜色失真,注:"SS"是我加在图层上面的字符通过参考其他博客的内容:总共得到两种方案: (1)若图像的像素矩阵是三维的话,则PIL默认是RGB格式读取进来,若像素矩阵是...原创 2019-04-27 19:02:09 · 5413 阅读 · 1 评论 -
最佳解 mysql安装:找不到ssleay32.dll问题和应用程序无法正常启动0xc000007b问题
楼主因为忘记了密码,导致重装MYSQL。然后xjb搞,bug巨多,最后总结出了一套可以解决很多安装问题的方法,不管是第一次装还是重装得老哥都看这里哈,感谢!如果重装mysql的话,请先将mysql卸载干净,最好把系统路径中关于MySQL的也删掉,我就不重复造轮子了 卸载指南第一步:下载mysql安装包这里推荐大家使用msi包,比较傻瓜式,操作方便 。msi的下载方式以上安装过程的需要...原创 2018-12-03 18:35:53 · 23775 阅读 · 19 评论 -
长短期记忆(LSTM)-tensorflow代码实现(10分钟搞定,不要急躁)
作者:Jason 时间:2017.10.17 长短期记忆(LSTM)神经网络是之前讲的RNN的一种升级版本,我们先来聊聊RNN的弊端。RNN的弊端 之前我们说过, RNN 是在有顺序的数据上进行学习的. 为了记住这些数据, RNN 会像人一样产生对先前发生事件的记忆. 不过一般形式的 RNN 就像一个老爷爷, 有时候比较健忘. 为什么会这样呢? 想像现在有这样一个 RNN, 他原创 2017-10-20 14:54:14 · 14451 阅读 · 6 评论