果壳小旋子-CSDN博客

原创 #15 [Kaggle] Geophysical Waveform Inversion 赛题分析

地震波形反演竞赛的简单价绍

2025-06-11 13:33:44 6

原创 #14 【Kaggle】 Drawing with LLMs 金牌方案赏析

学习比赛第一名的解法

2025-06-01 17:20:16 63

原创 #13【CVPR2024】“不确定性不是敌人”：深入剖析多模态融合中的不确定性

在人工智能的迅猛发展浪潮中，多模态学习（Multimodal Learning）扮演着越来越重要的角色。我们日常生活中的感知信息并非单一形式：人类在对话中同时理解对方的语气（语音）、表情（视觉）和措辞（文本）；一款智能助手在处理任务时，往往需要联合处理图像、文字、语音、视频等多种模态信息。基于此，多模态融合（Multimodal Fusion）作为一种提升AI系统泛化能力、增强表示表达力的手段，受到了广泛关注。其基本目标是：将不同模态中的互补信息进行整合，以获取更鲁棒、更准确的联合表征。

2025-03-22 21:07:51 267

原创 #10 重新认识Transformer中的自注意力机制

深入阐述自注意力机制

2025-03-19 13:27:12 73

原创【Python】计算两个整数的最大公约数

两个整数。

2025-03-09 14:49:21 1113

原创 #12 【Kaggle】利用Gemma 2绘制SVG图像

利用大语言模型生成svg图像的一个starter notebook

2025-03-08 11:00:46 70

原创 #9 【code】实现扩散模型的一个jupyter notebook

简单的扩散模型实现

2025-03-05 22:54:03 195 1

原创 #11 如何使用 Kaggle packages

介绍了Kaggle包的用法

2025-03-01 17:17:21 193

原创 #8 【code】扩散模型生成样本

扩散模型生成样本代码赏析

2025-03-01 12:49:02 39

原创 #7 Diffusion for beginners

DDPM sampler代码赏析

2025-02-28 23:13:08 96

原创 #6【TIP2023】Dif-Fusion

是四通道的高斯噪声，通过推导可以得到任意时间步的条件概率。前向过程看成是逐步加噪的Markov链，在每一个时间步。用于控制每一步加入的噪声的方差，对于第一个时间步。的两个输入分别是时间步。

2025-02-24 22:28:43 63

原创 #5【CVPR2024】PLACE：自适应布局语义融合

写得相当有条理的一篇文章

2025-02-24 22:05:09 113

原创 #4【CVPR2024】SHIP：图像融合的一种协同高阶交互范式

通道维度以及空间维度上的高阶交互

2025-02-22 15:59:51 241

原创 #3【IF2025】DAFusion：退化感知引导的图像融合

一种退化感知引导的图像融合方法

2025-02-15 11:15:34 132

原创 #2【IF2025】KDFuse：跨模态知识蒸馏

用知识蒸馏减小domain gap

2025-02-10 20:50:17 155

原创 #1【NeurIPS 2020】降噪扩散模型原理Diffusion

简要介绍了扩散模型

2025-02-08 08:49:04 48

原创【Python】根据文件名中的数字对列表进行排序

介绍了Python列表排序的一个误区及解决办法

2024-06-11 10:35:04 373

原创 CUDA out of memory 报错解决方案

介绍了CUDA out of memory的一种解决办法

2024-04-24 16:26:12 6045 5

原创中国科学院大学学位论文LaTeX模版

介绍了中国科学院大学学位论文LaTeX模版的使用方法

2024-04-16 21:03:00 2396 1

原创【Markdown】自用语法

介绍了在Markdown编辑器中如何调整图片的大小和对齐方式，emoji，字体，字号，颜色

2024-04-16 20:09:26 418

原创【word】文档标题如何自动编号

介绍了word如何实现标题的自动编号功能

2024-04-15 20:00:46 863

原创计算机三级四级嵌入式备战经验

四级40题（30题单选，10题多选）操作系统，40题（30题单选，10题多选）计算机组成与接口，单选1分，多选2分，多选少选错选均不得分。操作系统多选很多文字游戏题，计组的多选较为固定，但是一些题需要记忆寄存器(825x系列芯片)，考试不给图，我刷完了所有的题，考到的寄存器里面也只能记一半。三级40分选择，40分填空，20分综合题，考试时间120分钟。我在某宝买的未来教育软件的激活码，顺便加了他们的群，平时看一看群消息，不会的和别人探讨探讨，也可以帮助别人回答问题，巩固一下知识，当然更重要的是。

2023-11-09 12:47:55 1554 2

原创本地vscode安装GPU版本PyTorch

他输出结果torch2.1.0+cpu，就是说我装的实际上是cpu版本的。所以不要用pip,用conda。我重装了一遍anaconda，（原本建的虚拟环境不会丢，不用担心），终于把pytorch装上去了。去官网复制他的代码运行。我用conda的代码会显示一个SSL的错误，我用pip安装会给我装一个cpu版本的pytorch，在底下调出终端窗口，默认是power shell，我喜欢用cmd窗口。操作系统 windows, IDE环境vscode，本地GPU。激活自己的虚拟环境，输入命令。

2023-10-10 15:44:48 2397

原创 Lite transformer

图片以及思想来源请参考论文。

2023-09-04 18:06:08 490

原创 Python 带参数的装饰器

它接受一个函数作为输入，再返回一个函数。我们使用一下这个装饰器我们调用一下now函数，它不仅打印当前时间，还会在前面打印一行日志：把@log放到now()假如我们的装饰器需要传递参数，那么我们需要再把装饰器包起来，俗称套娃执行上面装饰器等同于返回函数decorator返回函数wrapper。

2023-08-31 18:32:49 1001

原创 Python装饰器（decorators）

装饰器是一个很强大的工具，它允许我们很便捷地修改已有函数或者类的功能，我们可以用装饰器把另一个函数包装起来，扩展一些功能而不需要去修改这个函数代码。

2023-08-30 18:25:46 373

原创 Restormer

OverlapPatchEmbed 将输入图像传递给一个3x3的卷积层，得到一个嵌入结果。这与许多其他的patch embedding方法不同，这些方法通常使用较大的卷积核和步长来直接将图像分割成不重取的patch。Downsample 模块首先使用卷积层将输入特征图的通道数减半，然后使用像素反洗牌操作进一步降采样特征图。将通道数x4，长/2，宽/2，所以总体上该模块是将通道数x2，长/2，宽/2。的官方文档，可以看到，Downsample模块先用二维卷积层。的实现代码，与上图完全一致。

2023-08-28 15:04:29 865

原创 Transformer模块（Restormer)

模块组成一个Transformer Block。

2023-08-27 15:05:18 491

原创 GDFN模块（restormer）

为了对特征进行变换，常规的前馈神经网络独立地在每个像素位置进行相同的操作。它使用两个1x1卷积层，一个用来扩展特征通道（通常4倍），第二个用来将特征通道减少到原来的输入维度。在隐藏层中加入非线性。架构如下图：门机制通过经过线性变换的两个平行通道的逐元素点积实现，其中一个通道用激活，可以参考深度可分离卷积用来编码空间上邻域像素的信息，有助于学习局部图像结构。

2023-08-25 15:25:53 1381

原创 MDTA模块（Restormer）

最后再残差连接，这整个流程才是上图所示。模块，该模块的实现可以参考。这段代码并没有实现图中的。可以看到实现的时候是先。

2023-08-24 18:37:34 1470

原创 Layer Normalization（层规范化）

训练深度神经网络需要大量的计算，减少计算时间的一个有效方法是规范化神经元的活动，例如批量规范化（batch normalization）技术，然而，批量规范化对小批量大小（batch size）敏感并且无法直接应用到中（recurrent neural networks），为了解决上述问题，层规范化（Layer Normalization）被提出，不仅能直接应用到RNN，还能显著减少训练时间。

2023-08-24 15:41:28 770