next_travel-CSDN博客

原创注意力蒸馏技术

本周阅读了一篇25年二月份发表于CVPR 的论文《Attention Distillation: A Unified Approach to Visual Characteristics Transfer》,论文开发了Attention Distillation引导采样，这是一种改进的分类器引导方法，将注意力蒸馏损失整合到去噪过程中，大大加快了合成速度，并支持广泛的视觉特征迁移和合成应用。最近扩散模型方面的进展显示了对图像风格和语义的内在理解。

2025-03-29 18:33:56 2012

原创 OSASIS（One-Shot Structure-Aware Stylized Image Synthesis）

本周阅读了一篇关于新型图像风格化的论文《One-Shot Structure-Aware Stylized Image Synthesis》，旨在解决现有GAN模型在风格化过程中难以保持输入图像结构的问题。通过分离图像的结构和语义信息，实现对内容和风格的精确控制。该方法采用了扩散模型和结构保持网络，以及clip方向性损失，以提高风格化图像的原始质量，并在结构上保持方面表现出色。论文中主要提出一种新颖的单发性风格化方法Osasis，在结构保持方面非常强大。

2025-03-22 23:38:27 1023

原创 DEADiff

本周学习了一种高效的风格化文本到图像生成模型DEADiff，旨在解决现有方法中参考图像引入风格信息时对文本可控性造成干扰的问题。该方法通过双重解耦表示提取机制（DDRE）从参考图像中分离提取风格和语义特征，并引入解纠缠条件作用机制，分别将风格与语义注入扩散模型中不同的交叉注意层，提升风格迁移与文本语义对齐的效果。此外，利用成对合成图像构建非重构训练范式，使模型在保持风格表达的同时强化对文本语义的响应能力。

2025-03-16 14:20:01 893

原创 ControlNet

本周学习的ControlNet 是一种用于文本到图像扩散模型（如 Stable Diffusion）的条件控制方法。它通过冻结预训练的扩散模型，并创建一个可训练的副本，使其能够学习额外的条件信息。关键技术包括零卷积（Zero Convolutions），用于确保模型训练初期不影响原始网络，同时逐步引入控制信息。ControlNet 可以接受多种条件输入（如 Canny 边缘检测），并在保持高质量图像生成的同时，实现精确的结构控制。实验结果表明，该方法在不同条件约束下均能稳定工作，有效增强了扩散模型的可控性。

2025-03-08 22:22:14 715

原创 T2I-Adapter

本周学习的T2I-Adapter是一种专为文本生成图像任务设计的高效适配器。该方法通过低成本整合T2I模型内部知识与外部控制信号，实现对生成过程的精细调控。适配器采用四个特征提取模块与三个下采样块，并利用像素反洗牌技术将条件信息降采样至64×64，再与UNet编码器中间特征融合，从而实现图像结构和色彩的双重指导。同时，借助空间调色板对图像色调与颜色分布进行粗略调控，解决了稳定扩散模型在复杂场景下生成效果欠佳的问题。本周学习的T2I-Adapter通过巧妙的结构设计，实现了文本到图像生成过程中的精准控制。

2025-03-01 12:40:55 688

原创图像分割UNet、生成模型SD及IP-Adapter

本周学习了UNet、Stable Diffusion及IP-Adapter三种计算机视觉模型的原理和实现。UNet是一种用于语义分割的神经网络，采用编码-解码结构，能够进行像素级分类，并通过带权交叉熵损失函数优化边界分割。Stable Diffusion是一种基于潜在扩散模型（LDM）的文本到图像生成方法，通过变分自编码器（VAE）降维并使用交叉注意力UNet进行去噪，使得图像生成更加高效。

2025-02-23 12:09:22 955

原创图像生成GAN和风格迁移

本周学习了生成对抗网络（GAN）与风格迁移技术在图像生成中的应用。首先介绍了GAN模型中生成器与判别器通过对抗训练，使随机噪声逐步转换为逼真图像，展示了其在动漫人物生成中的潜力。其次阐述了风格迁移方法，通过预训练卷积网络提取图像内容和风格特征，并构建内容、风格及总变差损失，实现艺术风格转换。本周阅读论文《Perceptual Losses for Real-Time Style Transfer and Super-Resolution》文章地址。

2025-02-16 11:58:17 1545

原创扩散模型加速采样算法DDIM

扩散模型（Diffusion Models, DM）近年来成为生成模型研究的热点，其中去噪扩散概率模型（DDPM）利用马尔科夫链逐步去噪以生成高质量样本。然而，DDIM（去噪扩散隐式模型）通过非马尔科夫链方法优化了采样过程，提高了生成效率。本周学习了DDIM的非马尔科夫链前向扩散过程，并分析了其后验分布与DDPM的对比，展示了DDIM如何通过引入超参数σt\sigma_tσt实现更灵活更一般的采样方式。

2025-02-09 14:29:42 860

原创编码器和扩散模型

本周学习了自动编码器（AE）和变分自动编码器（VAE）的基本原理与实现，分析其在数据降维、特征学习以及生成任务中的应用与局限性。自动编码器通过编码器和解码器结构，将复杂数据映射到低维潜在空间，再从潜在空间还原输入数据，但面临潜在空间表达模糊和对噪声敏感等问题。为解决这些问题，引入变分自动编码器（VAE），通过正则化潜在空间的分布，使得生成任务更为鲁棒和自然。

2025-01-25 23:00:51 1047

原创概率扩散去噪模型DDPM

本周主要学习了高斯噪声在扩散模型中的应用及相关算法实现。扩散模型受到自然现象的启发，通过在图像中引入高斯噪声，模拟出扩散效果，并通过逆向过程从随机噪声中生成图像。正向过程以随机噪声叠加原始图像，迭代生成噪声图片；逆向过程则从噪声恢复原始图像。此外，本周阅读并总结了《TexFit》论文，探讨了一种基于文本提示的局部图像编辑方法，提出了编辑区域定位模块（ERLM）和两阶段扩散模型架构。

2025-01-18 20:13:49 894

原创 RT-DETR

本周看了一篇《DETRs Beat YOLOs on Real-time Object Detection》设计了一种高效的混合编码器，通过解耦尺度内交互和跨尺度融合来提高速度来快速处理多尺度特征；同时提出了不确定性最小查询选择来为解码器提供高质量的初始查询，从而提高准确率。此外，RT-DETR通过调整解码器的数量来适应各种场景而无需重新训练来支持灵活的速度调整。它不仅在速度和准确性上都优于之前先进的 YOLO 检测器，而且还消除了 NMS 后处理对实时对象检测的负面影响。

2025-01-12 17:52:26 804

原创计算机视觉目标检测-DETR网络

DETR（DEtection TRansformer）是由Facebook AI提出的一种基于Transformer架构的端到端目标检测方法。它通过将目标检测建模为集合预测问题，摒弃了锚框设计和非极大值抑制（NMS）等复杂后处理步骤。DETR使用卷积神经网络提取图像特征，并将其通过位置编码转换为输入序列，送入Transformer的Encoder-Decoder结构。Decoder通过固定数量的目标查询（Object Queries），预测类别和边界框位置。

2025-01-05 17:37:45 1577 1

原创计算机视觉目标检测-2

本周学习了Fast R-CNN和Faster R-CNN算法的核心思想、技术细节和创新点，并对其性能进行比较。Fast R-CNN通过引入ROI Pooling层解决了R-CNN中重复计算特征的问题，同时采用多任务损失函数将分类和边框回归整合为一个端到端的模型。相比于Fast R-CNN，Faster R-CNN进一步提出了区域生成网络（RPN），取代了耗时的Selective Search，显著提升了候选区域生成的效率。

2024-12-29 17:21:08 1904 1

原创计算机视觉目标检测-1

目标检测算法从早期的暴力穷举逐步发展到基于深度学习的高效框架，如RCNN和SPPNet。RCNN通过候选区域和CNN结合，大幅提高了检测精度，但其多阶段训练过程复杂，耗时且占用大量磁盘空间。SPPNet的出现利用SPP层实现CNN层共享，显著提升了训练效率，启发了后续的Fast R-CNN等方法。然而，SPPNet仍需多阶段训练，效率提升有限。

2024-12-22 17:59:33 1019

原创 Transformer

Transformer是一种自然语言处理（NLP）和其他序列到序列任务的深度学习模型框架，其引入自注意力机制，这是一个关键的创新，在处理序列数据是表现出色。Transformer 与 RNN 不同，可以比较好地并行训练。Transformer 本身是不能利用单词的顺序信息的，因此需要在输入中添加位置 Embedding，否则 Transformer 就是一个词袋模型了。Transformer 的重点是 Self-Attention 结构，其中用到的 Q, K, V矩阵通过输出进行线性变换得到。

2024-12-15 17:45:41 764

原创情感分析研究综述：方法演化与前沿挑战

本周任务主要是概述了基于深度学习技术的情感分析领域中最先进的研究成果，重点探讨了情感分析的计算方法。这些方法涵盖了不同的模态，包括文本、图像、音频，以及多模态情感分析中的各种双模态和三模态组合。研究表明，情感分析技术在多个领域，如教育、医疗健康、产品评论等，具有重要的应用价值。本文首先概述了基于深度学习技术的情感分析领域中最先进的研究成果，重点探讨了情感分析的计算方法。这些方法涵盖了不同的模态，包括文本、图像、音频，以及多模态情感分析中的各种双模态和三模态组合。

2024-12-08 18:43:42 4586

原创 BERT模型

自监督学习通过自我监督的方式学习通用特征表达，主要分为生成式学习和对比学习。生成式学习关注像素空间的重建误差，而对比学习关注特征空间中不同输入的区分。BERT作为一种基于Transformer架构的预训练语言模型，通过双向上下文理解和大量参数，显著提升了NLP任务的性能。BERT通过无监督预训练和有监督微调的方式，实现了在多个任务上的优异表现，但其训练成本高，对长序列处理能力有限，可能学习数据偏见。自监督学习通过自我监督的方式，旨在学习一种通用的特征表达，用于下游任务。

2024-11-30 14:45:29 851

原创注意力机制以及视觉-语言预训练模型

本周学习了 ViLT（Vision-and-Language Transformer），这是一个视觉-语言预训练（VLP）模型，旨在简化视觉输入处理。ViLT 通过线性投影将图像分割为小块（patches），避免复杂的卷积神经网络（CNN）或预训练对象检测器的使用。与传统模型不同，ViLT 直接将浅层图像嵌入与文本嵌入一起输入到 Transformer 编码器中，显著减少计算量。该模型采用自注意力机制捕捉图像和文本之间的关系，并通过图像-文本匹配（ITM）和掩码语言建模（MLM）进行训练。

2024-11-24 17:34:09 774

原创凸优化理论和多模态基础模型研究

本周从拉格朗日对偶理论出发，系统学习了优化问题中凸函数、强对偶条件以及 KKT 条件的应用，并将其与机器学习中的反向传播机制相结合，分析了梯度在优化过程中的作用。本周还基于最新论文，深入解读了一种通过自监督学习预训练的多模态基础模型 BriVL。BriVL 利用弱语义相关数据，展示了处理多模态数据（视觉与文本）的优异表现，并通过想象力验证了其在生成任务中的潜力。与传统方法相比，BriVL 在语义建模上更加全面自然，是迈向人工通用智能（AGI）的重要尝试。

2024-11-17 12:11:40 819

原创胶囊网络、MobileNet、坐标注意力机制的应用

本周学习了一篇“基于注意力机制和预训练卷积胶囊网络的EEG情感识别”模型的论文。该论文中模型以基线校正的EEG信号为输入，首先通过坐标注意力模块加强重要特征区域的关注度，再通过预训练的MobileNet提取深度特征。MobileNet利用深度可分离卷积降低计算成本，保持模型性能；而胶囊网络凭借其敏感的位置信息保持和多维度向量输出，能够有效保留数据的结构信息并提升情感识别的准确性。

2024-11-10 12:43:15 1211

原创激活函数、条件熵和最大熵在机器学习的应用

本周学习内容探讨了神经网络中激活函数的选择及其对梯度消失问题的影响。通过使用 ReLU 函数替代 Sigmoid 函数来改善梯度消失问题的优化方法，同时分析了 Sigmoid、Softmax 激活函数在不同分类场景中的适用性。了解了条件熵和最大熵的定义，及其在概率分布建模中的重要性，结合特征函数与傅里叶变换揭示了最大熵原理如何支持概率分布估计。同时，最大熵、极大似然估计与交叉熵三者在神经网络模型中均可用于参数调整。

2024-11-02 23:44:28 1151

原创信息量、熵以及反向传播

在机器学习和深度学习中，信息量、熵、交叉熵和KL散度等概念是理解模型性能的核心指标，尤其是在神经网络模型的训练过程中。学习了这些基本信息理论概念，并详细学习了梯度下降法及其在神经网络反向传播中的应用。通过Python实现了一个简单的二分类神经网络，展示了利用梯度下降法更新权重的反向传播过程，使模型逐步逼近最优解。最后，利用训练好的神经网络对异或(XOR)问题进行了测试，演示了模型的学习效果。本周学习了信息量和熵的基本概念。信息量越大代表事件越难以预测，而熵则是对不确定性的总体度量。

2024-10-27 15:31:56 992

原创概率图模型中的模型推断

概率图模型通过对目标变量的边际分布或条件分布进行推断，能够有效处理高维和复杂数据。在模型推断中，参数估计可采用极大似然估计或EM方法，推断方法包括变量消去法和信念传播算法。对于复杂分布，近似推断方法（如采样法和变分推断）被广泛使用。本周通过实例展示了话题模型LDA的应用，利用LDA模型进行文本数据的主题推断，介绍了其基本构成及推断步骤。首先学习了概率图模型的推断问题，详细深入学习了变量消去法、信念传播及近似推断技术的原理和应用场景。在复杂问题中，利用采样法（如MCMC）和变分推断能够更有效地逼近分布。

2024-10-19 23:13:14 1212

原创非线性降维方法与概率图模型

本周继续学习了降维技术，包括线性方法和非线性方法的应用。线性方法如PCA和LDA虽然广泛应用，但在面对复杂的数据分布时效果有限，因此引入了非线性的流形学习方法，如ISOMAP、LLE和LE。这些方法通过保留数据的局部和全局几何结构，实现了更有效的降维。此外，还学习了概率图模型，涵盖了贝叶斯网、马尔可夫随机场和条件随机场，展示了在推断和计算复杂概率分布时的应用。降维技术的核心在于减少数据的维度以便于可视化和分析。线性方法，如PCA和LDA，通过在高维空间中寻找最佳的投影方向来实现降维。

2024-10-13 13:50:38 894

原创多维放缩（MDS)与主成分分析（PCA)

多维缩放（MDS）是一种保持样本间距离关系的降维技术，通过将高维空间中的距离矩阵转换为低维空间中的内积矩阵来实现。在MDS中，首先计算原始数据间的欧氏距离，然后构造出一个中心化的内积矩阵B，并对其进行特征值分解以获得降维后的坐标。主成分分析（PCA）则是另一种广泛使用的降维方法，它基于最大化投影后样本点方差的原则，通过求解协方差矩阵的特征向量找到最佳投影方向。两种方法都旨在减少数据维度同时尽可能保留原始数据的信息。

2024-10-06 16:03:55 1201

原创机器学习中的聚类

聚类是无监督学习中的重要任务，旨在将数据集划分为若干个子集（簇），使得同一簇内的样本相似度高而不同簇间的样本相似度低。本周学习了聚类的性能度量指标，包括内部和外部指标，如Jaccard系数、Rand指数、DB指数等，并介绍了几种常见的距离计算方法。此外，深入学习了几种原型聚类算法：k均值、学习向量量化(LVQ)以及高斯混合模型(GMM)，并以K-means算法为例，通过鸢尾花数据集进行了实战演示。本周学习了机器学习中聚类任务的基础概念与主要方法，强调了在无监督场景下发现数据内在结构的重要性。

2024-09-29 18:58:42 1064

原创集成学习两大流派

本周学习了集成学习中的两种重要方法：Boosting和Bagging。Boosting通过迭代训练弱学习器，并根据前一轮的表现调整样本权重，最终将弱学习器组合成强学习器。AdaBoost是Boosting的一个经典实现。Bagging则是通过对数据集进行随机采样来并行训练多个弱学习器，然后结合它们的预测结果。随机森林作为Bagging的一种改进，引入了特征随机选择机制，进一步提高了模型的泛化能力和处理高维数据的能力。通过实例展示了这些方法在分类和回归问题上的应用。

2024-09-22 17:38:26 736 1

原创机器学习中集成学习

本周首先学习了M-P模型的基本原理，包括神经元激活的条件和数学形式，并探讨了阈值的确定方法。接着，文章讲解了损失函数（如均方误差和交叉熵）在机器学习中的作用及其计算方式。最后，本文深入探讨了集成学习的基本思想、分类器组合策略以及主要方法（如Boosting和Bagging），并分析了集成学习相对于个体学习在性能上的优势。本周全面学习了M-P模型的工作机制及其阈值调整方法，并详细解释了常见损失函数的作用。

2024-09-15 16:30:37 999

原创模型泛化、残差模块算子融合、遗传算法

本周学习了模型泛化、自动微分、PyTorch中模型保存与加载、Dropout的实现及其变体R-Dropout，以及遗传算法的基础知识。通过具体示例介绍了自动微分的前向和反向传播过程、PyTorch中模型保存的不同方式、Dropout在神经网络中的应用及其实现，还展示了如何在PyTorch中实现卷积残差模块的算子融合，并给出了MATLAB中遗传算法的基本操作及函数解释。

2024-09-08 01:52:49 684

原创决策树模型

决策树是一种监督学习方法，通过从根节点到叶子节点的方式对数据进行分类或回归。构造决策树的关键在于选择合适的特征进行节点划分，这通常通过计算信息增益或其他衡量标准来实现。决策树易于理解和实现，但容易过拟合，因此需要采取剪枝策略来提高泛化能力。从根节点开始一步步走到叶子节点（决策）所有的数据最终都会落到叶子节点，既可以做分类也可以做回归。本周由于开学前期，时间没有很充裕，本周只学习了决策树模型，下周会继续努力学习！

2024-09-01 20:53:27 1030

原创特征工程以及transformer基础框架学习

本周学习了特征预处理技术，例如规范化和标准化，这些技术对于为机器学习模型准备数据至关重要。还深入研究了 Transformer 架构，解释了嵌入、注意力机制等组件，以及使用残差连接和层归一化来提高模型性能。在本周中，学习了特征预处理方法，包括归一化和标准化，用于为机器学习算法准备数据。然后，详细介绍了 Transformer 架构，重点学习了它通过词和位置嵌入的输入处理。注意力机制被解释为一个核心组件，它允许模型对输入序列的不同部分进行加权。

2024-08-25 00:53:53 1137

原创卷积神经网络补充及特征工程应用

本周详细学习了卷积神经网络（CNN）的基本组件及其功能，包括卷积层、激活层、池化层、全连接层和正则化层。同时，探讨了特征工程中的关键概念和技术，如特征提取方法，并通过实例展示了如何使用scikit-learn进行数据集划分和特征提取。最后，通过一个新闻分类案例应用了朴素贝叶斯算法，并总结了其优缺点。加载获取流行数据集获取小规模数据集，数据包含在datasets里。

2024-08-18 15:33:54 1187

原创机器学习中检验与可视化

本周学习了检查和可视化机器学习模型的方法，重点关注部分依赖图（PDP）、个体条件期望（ICE）图和排列特征重要性。PDP 和 ICE 有助于可视化输入特征与模型预测之间的关系，而排列特征重要性通过打破每个特征与目标变量的关联来评估每个特征对模型性能的影响。让Xs 为感兴趣的输入特征的集合(即特征参数)，令Xc做它的补充。

2024-08-11 01:29:06 742

原创机器学习--模型选择与评估

本周探讨了机器学习中的模型选择与评估技术，重点介绍了交叉验证方法，用于评估模型的泛化能力。通过k折交叉验证和随机排列交叉验证等技术，可以有效地评估模型在未见数据上的性能。同时，还介绍了如何通过网格搜索和随机搜索来调整模型的超参数，以找到最优配置。最后，文中还提到了如何调整分类器的决策阈值以及使用不同的评分指标来量化预测质量。对于最常见的用例，使用scoring参数指定一个计分器对象。所有得分对象都遵循这样的约定，即返回值越高越好。因此度量模型和数据之间距离的度量，比如度量。

2024-07-29 20:20:07 1045

原创机器学习---无监督学习

本周探讨了无监督学习中的几种关键方法，包括高斯混合模型（GMM）、聚类算法（如K-Means和Mean Shift）以及受限玻尔兹曼机（RBM）。高斯混合模型利用概率模型来拟合数据，并通过可视化展示了其对二维数据集的预测轮廓。聚类部分涵盖了多种算法的性能和局限性，如K-Means和Mean Shift，并提供了具体示例。最后，还介绍了受限玻尔兹曼机的工作原理及其在特征学习中的应用。

2024-07-26 12:46:20 904

原创机器学习中贝叶斯基础原理应用

贝叶斯定理是统计学中关于条件概率的重要理论，包括全概率公式描述事件发生的总概率，以及贝叶斯公式阐述了在已知某些证据条件下某一假设的概率。在机器学习领域，贝叶斯原理被广泛应用，其中朴素贝叶斯及其变体如多项式、Complement Naive Bayes、高斯和伯努利模型，成为文本分类、情感分析、人脸识别、数据挖掘推荐及异常检测等任务的有效工具。这些应用依赖于贝叶斯定理来预测和分类，尤其在处理大量数据时展现出高效与简洁性。

2024-07-21 16:04:56 703

原创机器学习中的分类算法——监督学习

本文综述了监督学习中多种分类算法的核心概念与应用示例，强调了从线性模型到非线性核方法、支持向量机(SVM)及神经网络模型的演变。线性模型如普通最小二乘法和岭回归，通过优化误差和正则化策略处理简单至中等复杂度的数据分类。岭回归通过引入惩罚项提高模型在多重共线性数据上的稳定性。线性和二次判别分析(LDA/QDA)提供了解决分类问题的经典框架，尤其适合具有特定统计属性的数据分布。核岭回归和SVM引入核技巧处理非线性分类，其中SVM以其最大化间隔的特性在高维空间中表现优异，尽管在大规模数据上可能面临计算挑战。

2024-07-14 13:30:06 1052 2

原创机器学习核心任务

机器学习是通过让计算机从数据中自动学习并进行预测或分析的技术。其核心任务主要包括回归与分类。回归致力于预测连续值输出，如线性回归通过拟合最佳直线预测目标变量；逻辑回归虽名含“回归”，实则应用于分类，利用Sigmoid函数转换预测连续概率。分类任务则是将数据分配至预设类别，如决策树通过特征分割数据，采用剪枝策略防过拟合；支持向量机(SVM)通过找到最大化类别间隔的边界进行分类，可选多种核函数适应不同数据特性。

2024-07-07 15:30:07 1573

原创 PyTorch神经网络（DNN-CNN）基础与实战

本篇文字是为了深入了解深度神经网络（DNN）和卷积神经网络（CNN）的基础知识和实战技巧，并使用PyTorch框架进行实际操作和模型实现。

2024-06-30 17:48:03 846

空空如也

空空如也