自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(24)
  • 收藏
  • 关注

原创 十二月第二周周报(论文阅读)

蓝藻水华频发对湖泊生态与水环境安全构成严重威胁.Landsat、Sentinel 等遥感平台因时间分辨率较低,难以实现蓝藻水华的连续动态监测;

2025-12-14 14:18:30 814

原创 Adversarial AtA学习(第二十三周周报)

本文系统性地阐述了针对深度学习模型的对抗性攻击(Adversarial Attack)的核心原理与方法。文章开篇定义了对抗性攻击的概念:通过向原始输入添加人眼难以察觉的微小扰动,以误导模型的预测结果。接着,文章区分了非定向攻击与更具威胁的定向攻击,并强调了攻击需满足的约束条件,即扰动必须足够小(通常用L2或L∞范数度量)以确保其隐蔽性。

2025-11-16 17:08:48 776

原创 自建督学习——BERT(第二十二周周报)

本文系统性地介绍了BERT模型的核心机制与应用。首先,文章阐述了BERT的预训练方法,重点是其核心任务——掩码语言模型,通过预测被掩盖的词汇使模型学习上下文信息,并提及了“下一句预测”任务的局限性及改进方案。其次,文章详细展示了将预训练BERT适配到四大下游任务的范式:文本分类、序列标注、句子对分类以及机器阅读理解,其通用模式是在BERT顶部添加一个简单的任务特定层进行微调。

2025-11-06 20:51:32 608

原创 各种各样的Self-attention学习下(第二十一周周报)

本文系统性地阐述了优化自注意力机制计算效率的核心思路与方法。文章首先指出标准自注意力N×N矩阵存在低秩冗余,并介绍了​​Linformer​​等模型通过线性投影压缩键/值序列来利用这一特性。接着,文章探讨了通过筛选或聚合来​​减少键或查询的数量​​,从而直接缩小注意力矩阵规模的方法。文章的重点在于揭示自注意力计算的数学本质,并展示如何通过​​改变计算顺序​​来优化。通过公式推导,文章阐明可以将昂贵的“逐个交互再求和”过程,转变为“先总和再交互”的策略。

2025-10-30 20:25:48 863

原创 各种各样的Self-attention学习上(第二十周周报)

本文系统性地综述了提升自注意力机制计算效率的多种关键技术。文章开篇指出标准自注意力存在的核心问题:其计算复杂度和内存消耗会随序列长度呈平方级增长,在处理长序列时成为模型瓶颈。

2025-10-26 13:57:36 1053

原创 Transformer学习下(第十九周周报)

本文系统阐述了Encoder-Decoder架构中的三大关键技术:数据传递机制、训练方法和优化技巧。在数据传递方面,重点分析了Cross-Attention的运作流程,即解码器通过Query与编码器提供的Key/Value进行交互,实现信息动态提取。训练方面,详解了基于教师强制策略的自回归训练流程及损失计算方法。优化技巧部分,介绍了引导注意力技术解决序列单调对齐问题,并深入解析了束搜索算法作为序列生成的关键优化手段。1 Encoder与Decoder的传递2 训练3 训练Seq2Seq等的Tips。

2025-10-19 15:05:27 808

原创 Transformer学习中(第十八周周报)

本文系统对比了自回归与非自回归序列生成模型。自回归模型通过编码器压缩输入信息,解码器则以串行方式逐步生成输出,其核心在于使用掩码自注意力机制确保每个输出步骤仅依赖已生成内容,从而保证序列连贯性,并通过END符号终止生成。非自回归模型通过并行解码大幅提升生成效率,但需额外机制预测输出长度,且因无法协调多位置信息易产生不连贯输出,导致效果通常逊于自回归模型。文章通过注意力权重可视化、解码器架构对比等角度,深入阐释了两种模型的技术原理与性能权衡。目录1.1 AT2 总结。

2025-10-11 15:25:40 1048

原创 Transformer学习上半(第十七周周报)

本文系统阐述了Seq2Seq模型及其核心架构Transformer。Seq2Seq模型专长于处理序列到序列的转换任务,如语音识别、机器翻译、句法分析和对话生成,其核心在于通过编码器理解输入序列并生成上下文向量,再由解码器据此生成可变长度的输出序列。Transformer模型作为Seq2Seq的革命性实现,引入了多头自注意力机制,实现了对整个输入序列的并行处理和全局依赖关系的有效捕捉,并通过残差连接和层归一化技术确保了深层网络的稳定高效训练。1 Seq2Seq2 Transformer的结构3 总结。

2025-10-05 12:08:19 1081

原创 批次标准化学习(第十六周周报)

本文系统阐述了深度学习中的规范化技术,重点分析了特征归一化和批量归一化的原理与作用。文章首先通过损失曲面可视化对比,说明输入特征归一化如何通过优化损失地形显著提升训练效率。进而深入探讨深度网络隐藏层激活值分布不稳定性问题,引入批量归一化技术解决内部协变量偏移。最后解析批量归一化在测试阶段的移动平均机制,确保模型推理时的稳定性。全文完整呈现了规范化技术从输入层到隐藏层、从训练到推理的全流程优化方案。目录1 规范化2 隐藏层归一3 总结规范化技术是深度学习的核心优化手段,通过重塑数据分布稳定训练过程。

2025-09-27 21:24:11 979

原创 量子计算学习续(第十五周周报)

本文系统梳理了量子计算的核心基础:通过布洛赫球模型将量子态可视化,阐释了量子系统时间演化的线性特性与酉算子约束,列举了关键的单量子比特门及其矩阵表示,并从薛定谔方程出发推导出时间演化算符的数学形式,强调了哈密顿算符的厄米特性质及级数展开的数学方法。1 布洛赫球模型2 量子系统简单解释3 总结成了量子计算的理论基石,核心在于掌握量子态(布洛赫球)、动力学演化(线性与酉性)及操作工具(量子门)的数学描述,最终统一于薛定谔方程衍生的演化算符,形成从静态表征到动态演化的完整认知闭环。

2025-09-20 14:40:24 945

原创 量子计算学习(第十四周周报)

量子计算是一种利用量子力学特性(​叠加​​和​​纠缠​​)来进行计算的新型计算模式。经典计算的基本单位是​​比特​​,其状态只能是确定的0或1;而量子计算的基本单位是​​量子比特​​,其状态可以用一个向量表示,即 ​​a|0〉 + b|1〉​​,其中 a 和 b 是复数,且必须满足 ​​|a|² + |b|² = 1​​ 这个条件。这个公式意味着一个量子比特可以同时处于0和1的叠加状态,其概率幅分别由 a 和 b 决定。量子计算不是一个抽象的理论,它的实现依赖于具体的物理系统。

2025-09-14 16:40:29 1072

原创 自注意力机制学习(第十三周周报)

本文系统介绍了自注意力机制(Self-attention Mechanism)的核心概念、应用场景及工作原理。文章首先阐述了自注意力机制的产生背景:为处理序列数据(如文本、语音)中“一组向量”的输入而设计,克服了传统单一向量输入模型的局限性。随后通过文字、语音和图像(社交网络、分子结构)的具体应用案例,展示了自注意力机制在不同模态数据中的通用性。

2025-09-06 15:07:49 746

原创 生成式对抗网络GAN学习(第十二周周报)

本文通过图解形式详细阐述了生成式对抗网络(GAN)的基本原理与工作机制。重点介绍了生成器如何从简单分布采样噪声并生成复杂数据,判别器如何评估样本真伪,以及两者通过对抗训练不断优化的过程。文章还突出了“分布”在生成多样化、创造性输出中的关键作用,并通过动漫人脸生成、条件创作等实例展示了GAN的应用价值。对抗网络GAN基础总结通过多张示意图,解释了生成器如何将简单随机噪声分布映射到复杂真实数据分布,以生成高质量样本;并解释了判别器作为“鉴定师”如何区分真实与生成样本,输出表征真伪的标量值。

2025-08-29 18:14:09 903

原创 深度学习——鱼与熊掌兼得(第十一周周报)

本文系统分析机器学习模型设计的核心问题:模型复杂度需平衡训练误差与泛化误差(鱼与熊掌问题),Sigmoid函数可逼近分段线性函数;深层窄网络通过层级特征抽象显著优于参数规模相同的浅层宽网络(如语音识别错误率:深层17.1% vs 浅层22.1%),因深度更适配层级化数据;ReLU激活的嵌套实现输入空间的分片线性分割(如双层ReLU生成4段),深层结构能以更少参量表达复杂函数,降低过拟合风险。深度模型通过高效特征抽象,平衡表达力与泛化性。目录1 鱼和熊掌4 总结。

2025-08-24 08:23:40 985

原创 卷积神经网络学习(第十周周报)

本文系统阐述卷积神经网络的核心原理与应用。第一部分介绍CNN将图像转化为三维张量,通过卷积层提取局部特征,利用感受野机制使神经元聚焦关键区域而非整图;第二部分详解参数共享通过复用相同滤波器权重扫描全图,解决特征位置无关性问题,大幅降低参数量;第三部分解析池化层压缩特征图尺寸,增强空间不变性并减少计算量。CNN通过感受野、参数共享与池化的协同设计,实现高效图像识别。 This article systematically explains the core principles and appl

2025-08-17 13:40:12 1078

原创 模型训练关键技术(第九周周报)

本文系统阐述了机器学习优化技术中的批次处理和自适应学习率方法。第一部分“批次与动量”介绍了批次回归:数据集被分割成小批次进行梯度下降,完整遍历一次称为一个epoch,每个epoch后shuffle数据能提升模型鲁棒性;分析了小批量和大批量梯度下降的优劣,小批量引入噪声但避免局部最优,大批量计算稳定但开销大,并在GPU并行计算下批量大小适中时效率最高;动量机制通过结合历史梯度方向与当前梯度,帮助参数跨越平坦区域。

2025-08-10 12:57:05 625

原创 模型问题学习(第八周周报)

本文系统阐述机器学习模型调试的核心框架:以​​训练集损失值为起点​​,分层诊断模型问题:(1)训练损失大时存在​​模型偏差​​,需增加模型复杂度;(2)训练损失小但测试损失大时存在​​过拟合​​,需扩展数据或约束模型;(3)若优化器失效,即使模型能力强也导致高损失,需改进优化策略。最后给出​​临界点类型判断法​​:通过二阶导数符号区分局部最低点、最高点与鞍点。全文通过“训练-测试”损失对比与可视化比喻构建诊断逻辑闭环。1 机器学习模型调试2 模型问题2.1 loss偏大2.2 loss偏小。

2025-08-03 13:24:37 1090

原创 逻辑回归算法学习(第七周周报)

这篇文章系统介绍了逻辑回归在二分类问题中的应用。首先,模型使用 Sigmoid 函数构建函数集,通过权重 w 和偏置 b 的线性组合输出中间值 z,并转化为条件概率 P(C1​∣x);当 P(C1​∣x)≥0.5 时预测类别 C1​,否则为 C2​。接着,训练过程通过最大化似然函数 L(w,b) 来评估参数的好坏,这等价于最小化负对数似然。优化步骤使用梯度下降法推导最优参数 w 和 b,公式化简后显示更新方向依赖特征误差乘积。

2025-07-26 11:04:06 784

原创 宝可梦分类续(第六周周报)

本报告系统梳理了基于高斯概率模型的分类方法全流程。通过宝可梦属性分类案例,详解高斯分布的参数估计及其极大似然估计法原理,揭示样本数据对概率密度形态的约束作用。针对单高斯模型测试准确率仅47%的问题,引入​​共享协方差矩阵的优化策略,通过加权平均平衡类别差异,使准确率提升至73%。最终衔接贝叶斯后验概率到逻辑回归的数学变换,为判别式模型奠定理论基石。全流程体现:​​从概率生成模型到判别模型的进化本质是优化决策边界复杂度的过程​​。1 高斯函式计算2 优化模型2.1 优化分类模型2.2 概率模型步骤。

2025-07-20 10:20:08 797

原创 宝可梦分类(第五周周报)

系统梳理了机器学习中分类问题的核心框架与实践方法。通过跨领域案例阐释"输入→函数→类别"的通用分类范式,并聚焦宝可梦属性分类的具象化应用,揭示特征数字化表示的重要性。针对传统回归硬解分类的局限性,提出理想模型需以最小化训练错误为目标,并借助贝叶斯定理实现概率化分类决策。进一步引入高斯分布模型,强调其参数μ与Σ对概率密度形态的调控作用,为基于概率的分类算法奠定理论基础。1.1 案例分析1.2 分类方式1.3 举例计算2 高斯分布3 总结。

2025-07-13 11:04:39 589

原创 预测宝可梦CP值:更好的Model(第四周周报)

本文系统探索宝可梦进化CP值预测模型的优化路径,从二次项、三次项到四次项的多项式复杂度升级中揭示训练误差与泛化能力的矛盾:二次模型显著降低训练误差并提升泛化性,三次模型仅微弱改进却增复杂度风险,而四次模型陷入过拟合陷阱;进而提出物种结构化设计范式,通过δ函数将全局模型解耦为波波、绿毛虫等物种专属线性子模型,以最小参数代价捕捉生物学差异,实现误差大幅优化;最后警示身高、体重等隐藏因素需结合正则化平衡交互项风险,强调模型本质应是物理规律的数学映射而非形式复杂度堆砌。1 更复杂的公式1.1 二次项。

2025-07-05 14:47:09 1049

原创 预测宝可梦CP值(第三周周报)

本文系统阐述了机器学习中的回归任务,其核心目标是通过输入特征预测连续值输出,并以宝可梦进化后CP值预测为案例展开分析。首先,通过两张图明确了输入参数与输出的映射关系。随后分三步构建预测模型:定义线性模型 y=b+w⋅x,强调参数 w 和 b 的优化需求;通过损失函数 L(w,b) 评估模型性能,利用训练数据计算误差平方和,并以颜色梯度可视化参数优劣;​采用梯度下降算法求解最优参数,指出线性回归的损失函数为凸函数,确保全局最优解,同时警示非凸问题中局部最优的风险。

2025-06-28 13:30:34 1116

原创 深度学习基础(第二周周报)

本文系统阐述了神经网络与深度学习的核心原理及实现机制。首先,神经网络作为一种模拟大脑信息处理方式的自适应系统,通过多层非线性计算单元的级联实现高维数据的特征提取与映射,其深度结构赋予其处理复杂模式的能力。深度学习的实现可分为三大步骤:​​定义函数集​​(通过神经网络结构设计构建候选函数空间)、​​评估函数优劣​​(利用交叉熵损失量化模型预测误差并聚合为总损失)、​​选择最优函数​​(采用梯度下降法迭代优化参数以最小化损失)。

2025-06-22 10:26:38 981

原创 机器学习基础(第一周周报)

机器学习旨在通过数据训练寻找输入到输出的函数映射,涵盖回归、分类及结构化学习。其实现分为三步:首先定义含未知参数的函数模型,通过数据学习参数;其次建立损失函数量化预测误差,以损失曲面评估参数优劣;最后通过梯度下降法迭代优化参数,沿负梯度方向最小化损失。为提升模型复杂度,引入非线性基函数组合:分段线性函数叠加可拟合复杂曲线;Sigmoid函数通过参数 w、b、c灵活调节形态;最终借助神经网络层实现高阶映射,并以ReLU激活函数优化训练效率,逼近任意复杂函数。

2025-06-13 12:28:34 663 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除