自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(100)
  • 收藏
  • 关注

原创 导师拷问:你论文的创新点呢?—— 分享谷歌大佬8个寻找创新点的技巧

这里为了帮大家更好地去写论文,我还整理了一份SCI论文的写作模板,包含了写作技巧、投稿、插图规范等等,另外还整理了60篇高质量涨点论文给同学们作参考,开源代码也附上了,争取从各方面帮助大家提高论文的质量和发表的成功率!不过就像我前面说的,“拼接” 真的能发顶会顶刊,最关键的不是 “拼” 本身,而是 “包装”,把思路捋顺,把 “为什么这么拼”“拼出了什么价值” 的故事讲精彩了,才能有机会中稿。我们普通人发文章,其实靠这种 A+B+C 的 “拼接” 模式就行,只要能达 SOTA,顶会顶刊也能上。

2025-09-10 14:17:55 789

原创 建议所有研究生结合深度学习做科研之前都先看看这本书!!

最让我印象深刻的就是这一块,书里讲了注意力机制和 Transformer——这些正是现在大语言模型的核心。作者还举了聊天机器人、文本到图像生成的例子,看完之后对前沿研究的应用场景更直观了。公式复杂就算了,好不容易看懂公式却不知道怎么写代码,更别提把模型用到实际项目里了。说实话,这部分让我对 CNN 在计算机视觉里的应用有了更系统的理解。对于入门阶段来说,这部分就像一把钥匙,能让人快速进入深度学习的大门。相关的开发和部署思路。这本书的一个特点是,不只是讲原理,还会结合代码示例,让你能真正上手。

2025-09-10 14:09:26 315

原创 很多数学教材,真的可以用“毒”来形容!

的感觉,这在国内教材里几乎不可能出现。书里涵盖的内容很广,从线性回归、支持向量机、决策树,到神经网络、反向传播、注意力机制,再到 CV、NLP、金融等应用,基本覆盖了 AI 学习过程中最容易卡壳的地方。它和传统教材最大的不同,就是作者从来不把数学当成高高在上的符号游戏,而是直接放进 AI 的语境里来讲。线性回归、支持向量机、决策树、随机森林这些算法,背后的数学逻辑写得非常清楚,而且都配合着具体的应用场景。这本书当然不会让数学瞬间变轻松,但它能让你感觉到数学和 AI 是紧密相连而不是冰冷的符号堆砌。

2025-09-10 14:05:12 253

原创 简直太牛了!我愿称它为国内最好的计算机视觉教材!

计算机视觉中的视觉识别方法,主要讲解基于深度学习的视觉识别方法,包括基于深度学习的图像分类、语义分割、目标检测、动作识别等;已经了解算法原理,只想要动手进行代码实践的读者,可以只关注代码的具体实现部分,一点也不影响阅读!计算机视觉中的图像处理基础,介绍了图像滤波、特征检测、图像拼接、图像分割等经典的图像处理算法;计算机视觉中的场景重建,主要讨论照相机标定、运动场和光流、平行双目视觉以及三维重建。计算机视觉是一门以应用为导向的学科,不同的应用对应不同的计算机视觉任务,所以。而且这本书的学习灵活性非常高,

2025-09-10 14:00:52 167

原创 风向变了!小波变换+注意力机制才是王道!

想快速增强模型特征提取能力、提高准确率,或是减少计算复杂度?那一定要试试“小波变换+注意力机制”!最近这方法超火,已经连中好几篇顶会。比如模型MAWNO,把自注意力和小波变换结合后,预测误差直接降了10倍,还刷新了不少SOTA!这组合优势其实就是个1+1>2:小波能把信号拆成不同尺度,抓住细节;注意力能给重要特征加权,滤掉噪声和无用信息,既提性能又省计算。为了帮大家吃透这思路、快速涨点,准备了9种小波变换+注意力机制创新方法,原文和源码都有,大家可以按自己的场景,选择合适的方案参考。

2025-09-10 13:54:48 697

原创 真得收藏了!短短93页居然把神经网络解释的这么清楚!

其实神经网络没有你想象得那么可怕,今天给大家推荐一本专为新手打造的入门书——《Deep Learning Demystified》(2025年6月9号出版),它会把那些看似“高深”的概念拆解成大家都能懂的小步骤。作者假设你对AI几乎一无所知(只能说太懂交叉学科的学生了),所以从“神经元是什么”讲起,再到人工神经元、感知机,最后才逐步过渡到多层神经网络,就像上楼梯,一步一步,不会让你直接掉进数学大坑。比如,用“天气预测”(晴天/雨天)作为感知机案例,用Python的小代码演示学习过程。

2025-09-10 13:47:23 303

原创 年度最佳!23个机器学习最佳实战项目

都知道最高效的学习方法就是实战,那机器学习有什么好的实战项目!后面还整理了一些机器学习面试八股,有了面试八股和项目经验,相信大家在金九银十会拿到满意的offer。机器学习面试八股和项目都整理好了,可以找下面小助手免费领取。

2025-09-08 19:03:34 133

原创 【金九银十】大模型面试必问八股文,5天背完通过率99%

完整版面试八股+答案可以找下面小助手免费领取

2025-09-08 18:58:48 125

原创 学AI别搞反顺序!保姆级人工智能机器学习入门路线

2⃣前沿技术实战🔍:深入物体检测、图像分割、行人重识别等前沿技术,提升你的AI实战能力。3⃣数据可视化📈:利用Matplotlib和Seaborn,将数据转化为直观的图表,让数据说话。1⃣机器学习算法🧠:探索线性回归、逻辑回归、决策树等核心算法,构建你的机器学习知识体系。1⃣项目实战经验🏭:通过200+案例,30+应用场景,全面掌握AI项目核心技能。4⃣一对一指导🌟:行业专家亲自指导,多维度服务,从入学到就业,全程陪伴你的成长。2⃣面向对象编程🦾:深入理解面向对象的概念,让你的编程技能更上一层楼

2025-09-08 18:53:36 958

原创 告别人工标注!强化学习首次用于医学图像定位,Qwen2.5-VL模型在MS-CXR上准确率达83.12%

题目:MedGround-R1: Advancing Medical Image Grounding via Spatial-Semantic Rewarded Group Relative Policy Optimization论文地址:https://arxiv.org/pdf/2507.02994v1。

2025-09-06 18:49:39 416

原创 深度学习不会缝合模块就死记这4种方法!!!

将多个神经网络模块按顺序连接起来,形成一个统一的网络结构,它提供了一种相对简单直接的方法来整合多个网络模块,有助于提升模型的性能,同时保持了一定的灵活性,,将不同的网络模块以交互的方式进行组合的方法,它通常涉及模型架构的创新和模块的整合,其核心在于不同网络模块之间的相互作用和信息交换,,将不同的网络模块同时运行,然后合并它们输出的方法,主要思想是利用多个网络模块的计算能力,通过同时处理数据来提高效率和性能,灵活运用这些方法能帮助你快速搭建出自己想要的模型,提高学习的效率,今天分享到这就结束了。

2025-09-06 18:46:20 207

原创 千万不要为了学深度学习而重新学数学知识,那样不仅浪费时间不说,而且会耗光你学深度学习的热情!

能让你从根本上理解机器学习的本质,你不再是简单的调用API,而是能够分析算法的优缺点,理解不同方法的适用场景,甚至能够针对特定问题设计新的算法或改进现有方法。因为深度学习里用到的数学知识并不多,只是一部分,不了解那些所谓“高深”的数学也不会妨碍你看懂现代深度学习论文,也没有多少工作是必须依靠高深数学做出的。本书的另一大特色结合Excel实践,直观的体验梯度下降法、神经网络,以及神经网络的误差反向传播法、卷积等,通过亲自动手来了解神经网络的本质。两本书籍的高清电子版+配套资源,可添加小助理无偿自取即可~

2025-09-06 18:42:53 237

原创 Transformer入门到精通(附高清文档)

这本书详细介绍了超过60种不同的Transformer框架,深入探索不同模型算法,并提供相应的案例和代码,可以在Google Colab平台上运行对应的代码。对于很多想要学习深度学习,时间序列,计算机视觉,NLP,大模型的同学来说,Transformer肯定是不陌生的。第四周:这一章主要介绍各种语言模型,比如Bert的改进版本等,可以不用细看每个模型,有个大概印象就行。第七周:关注Transformer的可解释性,挺有意思的一个研究方向,建议大家多了解拓展视野。

2025-09-04 16:15:24 178

原创 机器学习+医疗=逆天组合

深度学习简介:深入讲解神经网络的基础,从最简单的感知器到多层神经网络,再到卷积神经网络(CNN)、循环神经网络(RNN)、长短时记忆网络(LSTM)等复杂结构,解释它们如何在处理医疗图像、序列数据等方面表现出色。医疗数据处理:讨论医疗数据的独特性,如电子健康记录(EHR)、医学影像、基因组数据等的预处理、标准化和隐私保护问题,以及如何利用这些数据进行有效学习。机器学习基础:这一部分会详细介绍监督学习、无监督学习、强化学习等基本的机器学习方法,包括算法原理、模型评估指标、过拟合与欠拟合问题及其解决方案。

2025-09-04 14:48:37 226

原创 我用65页PDF搞懂了机器学习十二大核心算法

6️⃣K均值聚类 ✨原理:根据数据点之间的距离将数据分成K个簇,目标是最小化每个簇内的平方误差。👍优点:强大的非线性建模能力、自动特征提取、灵活性强。👎缺点:对初始值敏感、簇的形状限制、确定 K 值困难。👍优点:直观易懂、无需特征缩放、处理多类型数据。👎缺点:线性假设、对异常值敏感、多重共线性。👎缺点:训练时间长、需要大量数据、难以解释。👍优点:简单易解释、计算效率高、稳健性强。👍优点:简单易实现、适用广泛、计算效率高。👍优点:简单易懂、计算速度快、解释性强。👍优点:计算效率高、结果直观、

2025-09-04 11:55:59 227

原创 CoT+MLLM,突破传统单模态推理的局限性!

本文中,提出了一种图像合并的多模态思维链,名为 \textbf{Interleaved-modal Chain-of-Thought (ICoT)},它生成由配对的视觉和文本基本原理组成的顺序推理步骤来推断最终答案。在现有的大规模视觉语言多模态模型中,对被遮挡物体的理解没有得到很好的研究。构建了大规模的多模态思维链数据集:为了支持上述复杂推理流程的训练,作者构建了一个包含11万个样本的大规模数据集,其中每个样本都带有详细的多步思维链标注,包括物体属性问答、是否需要3D辅助的判断以及最终识别结果。

2025-09-03 15:07:03 944

原创 注意力机制24种高效涨点的魔改方法

CenterMask是一种高效实例分割方法,它结合了FCOS检测器和注意力引导掩膜分支,提高了检测性能。文章还改进了VoVNetV2主干网络,提高了性能。CenterMask和CenterMask-Lite分别针对大型和小型模型进行设计,CenterMask实现了38.3%的性能,超过了所有以前的最先进方法,同时速度更快。既不用人为设计规则,又能把老方法全面比下去,显存省一半,训练跑得更快,还能一眼看出模型学了啥。为了让大家能够紧跟领域前沿,掌握最新的研究思路和方法,用到自己的文章中,给大家准备了。

2025-09-03 14:59:19 275

原创 顶会idea:Mamba+CNN强力涨点新突破!

我们对包括器官分割和皮肤病变在内的分割任务进行了全面的实验,并对 Synapse、ISIC17 和 ISIC18 进行了广泛的实验,以证明 HC-Mamba 模型在医学图像分割中的潜力。结果证明了其优越的性能,并通过消融研究验证了每个模型组件的意义。首次把空洞卷积和深度可分离卷积直接塞进 Mamba 的 SSM 模块,做成一个双分支的轻量化“HC-SSM Block”,用 13 M 参数就拿到比之前 25–30 M 的 Mamba-UNet 更高的精度,真正做到了“看得远、算得快、省得多”。

2025-09-03 14:53:21 415

原创 13w+引用的LSTM还在爆火!原作者魔改后超越Transformer,发文选这方向稳了!

最近看LSTM的引用量,发现已经达到了惊人的13w+。可见时至今日,这个解决了传统RNN处理长序列难题的技术依然广受欢迎!而且自从它的原作者亲自出手,把它升级成了可扩展、性能up的xLSTM,直接全面超越Mamba和Transformer!有关它的魔改研究就一直是当前的热门。简单看了一下,相关研究主要围绕LSTM尚未解决的问题展开,比如计算量大、模型复杂,还容易过拟合等,创新空间还是有不少的。

2025-09-03 14:47:27 1026

原创 有粉丝问深度学习图像处理怎么入门?于是我耗时一个星期制作了这份超详细的路线图(包含五大部分)

包括了机器学习、深度学习和生成式模型,但我们不需要把这些内容里面的所有知识点全部掌握,只需要学习其中的部分,就拿深度学习来说,只要掌握CNN、transformer、模型压缩这些就够了,即使是比较复杂的CNN,只要了解它的基础结构、经典模型、训练优化,如果你觉得这些还不够,也可以根据自己的实际情况在去学习其他内容,并不一定要按照这个路线来。在学习完后,建议大家一定要去打一场比赛,像Kaggle、天池等比赛都是非常值得大家参加的,不仅可以让自己的简历更加丰富,同时也锻炼自己的能力。

2025-08-27 11:37:08 653

原创 如何使用PyTorch搭建一个基础的神经网络并进行训练?

首先定义一个名为NeuralNetwork的类,它继承了PyTorch框架的nn.Module类,用于创建神经网络。这行代码创建了一个model的神经网络模型实例,并将其移动到特定的设备(我这里使用的是GPU)上进行计算。hidden1:第一个隐藏层,输入大小为28x28(图像大小),输出大小为128。hidden2:第二个隐藏层,输入大小为128,输出大小为128。hidden3:第三个隐藏层,输入大小为128,输出大小为64。out:输出层,输入大小为64,输出大小为10(类别数)。

2025-08-27 11:27:44 427

原创 你别不信!深度学习这一块最容易水论文的还得是特征提取模块!

比如设计共享特征提取模块,同时处理图像分类与目标检测任务,利用两类任务对图像特征的共性需求实现协同优化,发现在COCO数据集上有涨点,就可以写《多任务联合优化的特征提取网络》,重点吹任务协同、特征共享带来的效率提升。我们写论文最重要的就是把论文发出去,不用担心论文写的不好、不够完美,慢慢就会发现,在水的过程中,其实已经不那么水了,加油!,这些模块就像积木一样,可以按照自己的想法插入到模型中,构建出自己的模型结构,而且模块都是大牛设计,性能非常强!在详细介绍前,给大家收集整理了一份水论文必备的即插即用模块,

2025-08-27 11:04:09 821

原创 计算机视觉到底应该怎么学?我建议所有要做CV的人先把这本书看了!

书中还介绍深度梦境与神经风格迁移,深度梦境能够让计算机生成富有想象力和奇幻色彩的图像,神经风格迁移则可以将一幅图像的风格迁移到另一幅图像上,创造出艺术感十足的作品。让读者领略到深度学习在创意领域的应用。而GANs则在图像生成等方面有着独特的优势,书中通过详细的讲解和案例,让读者了解到如何使用GANs生成逼真的图像,像人脸生成、场景生成等应用场景都有所涉及。这本教材从基础概念讲起,开篇便向读者普及计算机视觉的基础,比如视觉感知原理、视觉系统的构成等内容,让读者对计算机视觉有一个整体的认知框架。

2025-08-26 16:18:26 444

原创 再读一遍,我终于知道它为什么被称为深度学习领域的“百科全书”了!

这本手速涵盖了机器学习深度学习研究、工程和优化中的所有核心概念,包括感知机、梯度下降等基础概念,epoch、topk等基本术语 ,maxpool等基本操作,int8量化等核心技术,以及深度学习系统设计(带有示例)、int32 IEEE 754、用fp32模拟fp64等数值分析概念。从内容广度来看,无论是基础的感知机、多层感知器(MLP),还是深度学习的关键算法如反向传播(BackProp)、卷积(Conv),亦或是近年来备受瞩目的注意力机制(Attention)等,都能在书中找到精准且易懂的解释。

2025-08-26 16:15:00 268

原创 这是我发现目前第一本全面介绍生成式AI与AI Agents的系统教程!!

针对代理的系统提示和指令的设计也是关键环节,合理的提示和指令能够引导代理做出更准确的决策和执行更有效的动作。同时深入讲解代理系统原理,包括自我治理等概念,说明智能代理特征、系统架构及多代理系统在交通管理等场景的优势,还涉及智能代理的知识表示等内容,以及生成式人工智能对增强代理能力的作用。生成式AI可生成文本、图像等内容,书中明确定义,介绍其在创意设计等领域的应用,也提及生成内容质量稳定性、数据隐私等挑战。书中先阐述了生成式AI与代理系统的基础内容,包括生成式AI的应用与局限,以及代理系统的原理、架构等。

2025-08-26 16:11:29 401

原创 时序论文 | TwinsFormer:通过两个交互组件重构时间序列内在依赖关系

论文题目:TwinsFormer: Revisiting Inherent Dependencies via Two Interactive Components for Time Series Forecasting论文地址:https://openreview.net/forum?

2025-08-25 18:37:48 746

原创 Nature | 医学影像分析中使用nnUNet不够有新意?来看看顶刊也在用的RTP-Net!

论文题目:Deep learning empowered volume delineation of whole-body organs-at-risk for accelerated radiotherapy论文地址:https://www.nature.com/articles/s41467-022-34257-x。

2025-08-25 18:32:55 874

原创 微小目标检测新标杆 | DPNet首创动态神经网络范式,微小目标检测效率跃升35%!

题目:DPNet: Dynamic Pooling Network for Tiny ObjectDetection论文地址:https://arxiv.org/abs/2505.02797。

2025-08-25 18:23:59 708

原创 得到清华、复旦、哈工大、南京大学等一众教授表扬!!世界上公认的深度学习好书!

学完这本书后,大家能够掌握通过编写Python代码来解决复杂的模式识别问题的能力。比如在图像识别、语音识别和自然语言处理等领域,利用书中所学知识和技能去构建模型,解决实际的模式识别任务。不知道大家有没有看过Michael Nielsen写的《深入浅出神经网络与深度学习》?这可是一本世界上公认的深度学习好书!尤其适合想要入门深度学习的学生阅读!如果你需要这本书的PDF,可以直接扫码添加我的助手让她无偿及时分享给大家!不光如此,李航、邱锡鹏等一众AI大佬也对它给予了高度认可和称赞。

2025-08-23 19:25:15 147

原创 手都敲麻了!Transformer超详细全解!含代码实战!

第二步:将得到的单词表示向量矩阵 (如上图所示,每一行是一个单词的表示x)传入Encoder中,经过6个Encoder block (编码器块)后可以得到句子所有单词的编码信息矩阵C。第一步:获取输入句子的每一个单词的表示向量X,X由单词本身的Embedding(Embedding就是从原始数据提取出来的特征(Feature)) 和单词位置的Embedding相加得到。Transformer的内部结构图,左侧为Encoder block(编码器),右侧为Decoder block(解码器)。

2025-08-23 19:21:52 1139

原创 注意力机制到底是什么?

其中,Tom是主语,Jerry是宾语,是两个人名,chase是谓语,是动词,这三个词的影响程度大小顺序分别是Jerry>Tom>chase,例如(Tom,0.3),(chase,0.2),(Jerry,0.5)。再比如,当我们看到下面这张猫的图片时,主要会将目光停留在猫的脸部,以及注意猫的躯干,而后面的草地则会被当成背景忽略,这说明我们在每一处空间位置上的注意力分布不一样。聚焦的过程体现在权重系数的计算上,权重越大,越聚焦在对应的Value值上,即权重代表了信息的重要性,而Value是其对应的信息。

2025-08-22 12:06:38 903

原创 我真的无法反驳!这就是国内写得最好的深度学习神经网络入门书!

第12章介绍玻尔兹曼机和深度信念网络这两种早期的深度学习模型;这本书从机器学习基础到各类神经网络模型,再到进阶的深度学习模型,全方位覆盖深度学习领域的知识。邱锡鹏教授凭借深厚的学术功底,将复杂的理论知识以简洁清晰的语言表述,便于读者理解吸收。第1章介绍人工智能、机器学习、深度学习的概要;第2-3章介绍机器学习的基础知识,为后续深入学习深度学习打下基础。如果你需要这本书的PDF+代码可以添加我的小助手,让她无偿分享给大家!如果你需要这本书的PDF+代码可以添加我的小助手,让她无偿分享给大家!

2025-08-22 11:59:07 203

原创 学机器学习就是要早点听劝!终于知道大多数人把它称为教科书的原因了!

他发表了400多篇论文,还拥有80多项专利,在学术研究和产业实践方面都有很深的积累和独到的见解。书里还深入分析了“概率框架-数据特征-模型结构”这三者之间的关系,再加上200多个真实案例和配套习题,能帮读者培养起严谨的数理思维方式。它把概率统计和机器学习的知识体系结合得很紧密,所以既能当机器学习的入门教材,也能在工业界开发复杂模型时当作参考手册来用。》,能给学习机器学习的人带来系统又深入的知识框架和实用方法。这本书很适合本科生、研究生,还有想转行做AI的人来读,尤其是那些已经懂点线性代数和微积分的读者。

2025-08-22 11:55:01 142

原创 大模型+小模型,原地起飞

大模型能力强但耗资源,小模型省资源但能力有限...有什么办法能将它们结合起来,发挥1+1>2的效果?今天就给大家分享几个常用的结合策略!为方便理解和学习,我还附上了每种策略相关的参考论文,共有17篇,包含开源代码,如果你对大模型结合小模型感兴趣,那强烈推荐阅读!

2025-08-21 11:22:38 750

原创 CVPR顶会idea|cv通用|频域前馈网络

题目:Efficient Visual State Space Model for Image Deblurring论文地址:https://arxiv.org/pdf/2405.14343。

2025-08-21 11:15:08 841

原创 CVPR25:特征融合消除CLIP类间混淆

本图展示了 CLIP 在零样本学习(ZSL)任务中类别间混淆问题的示意图以及 Logits DeConfusion 方法的解决方案。图(a) 显示了 CLIP 原始 logits 中的类别间混淆现象,即不同类别的预测值难以区分,导致分类精度下降。图(b) 展示了经过 Logits DeConfusion 方法处理后的 logits,类别间混淆得到了显著缓解,分类边界更加清晰。图(c) 是 Logits DeConfusion 方法的整体架构示意图,展示了如何通过建模和消除类别间混淆来改善分类性能。

2025-08-21 11:10:18 1384

原创 (IJCAI2025)傅里叶变换结合注意力机制,涨点起飞!

最近注意力机制又双叒叕火出圈了,和傅里叶变换的组合直接杀穿顶会!比如IJCAI25上的SRConvNet,在图像超分辨率任务里直接干出 SOTA 性能!为什么这种跨界操作如此之香?因为傅里叶变换能把数据拆成不同频率的“积木块”,而注意力机制能锁定最关键的部分,这对很多领域(尤其是信号处理)都是不可或缺!不过这方向目前还存在些老问题,比如计算量爆炸、泛化能力拉胯...但想想这不都是创新突破口?

2025-08-21 10:31:38 435

原创 世界公认的机器学习 “圣经” 作者,时隔16年再次出版深度学习扛鼎之作!

提到机器学习的好书,人们总能列举出不少。此外,这本书着重于让读者清晰理解相关思想,强调技术的实际应用价值,而非抽象的理论观点,所以对于复杂的概念,都会从文本、图表、数学公式和伪代码等多个相互补充的角度进行呈现。而且,这也是我头一回见到,能让Geoffrey Hinton、Yann LeCun、Yoshua Bengio这三位人工智能领域的顶尖权威同时赞誉的深度学习著作!这本书围绕深度学习的核心思想展开,讲解全面且条理清晰,无论是刚入门、想要学习机器学习与深度学习的新手,还是已经具备一定经验的人,都适用。

2025-08-20 18:07:16 192

原创 上海交大教授放大招!《动手学机器学习》获周志华等学界大牛力荐!

这本书真正实现了机器学习理论与实践的深度融合,通过海量示例与代码,引领读者步入机器学习的领域,帮助你对机器学习和深度学习的研究范畴、核心原理及底层逻辑形成清晰的认识。这本书全面讲解了机器学习的基础内容及相关代码实现,着重提升读者的专业功底与实际操作能力,对于有机器学习学习需求的研究生和研究人员而言,是一本十分合适的读物。由上海交通大学张伟楠教授所著的《动手学机器学习》,不仅在豆瓣收获了8.8的高分评价,还赢得了包括周志华在内诸多业界大牛的认可与赞誉。如果你需要这本书的PDF可以添加我的小助手。

2025-08-20 18:02:54 171

原创 144k Transformer依旧是热门方向

翻译过来就是掩码多头注意力,掩码的意思就是掩盖住一些信息,这里掩盖的是预测位置以及之后的信息,因为采用的是自回归预测,所以肯定不能知道未来的信息的。指的是多头注意力机制,这里的多头注意力和Encoder部分的不同,因为这里是交叉注意力,K,V矩阵来自于Encoder部分,Q矩阵来自于前面的掩码多头注意力,其他部分和Encoder部分区别不大。这个表示在当前预测的条件下,已知的信息,因为Transformer采用的是自回归,所以会把前面预测的结果和一些已知的信息作为输入,就是这个Outputs。

2025-08-20 17:57:49 267

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除