- 博客(84)
- 资源 (2)
- 收藏
- 关注
原创 Transformer 与 XGBoost 协同优化的时间序列建模
本文提出一种结合Transformer与XGBoost的时间序列协同建模方法。Transformer通过自注意力机制捕捉序列的长期依赖关系,XGBoost则专注于拟合Transformer的预测残差,捕捉非线性细节。模型采用分阶段训练:先预训练Transformer提取时序特征,再用其输出训练XGBoost,最后可选联合微调。实验表明,该方法能有效提升预测精度,误差分析显示预测值与实际值趋势吻合良好。文章还提供了参数优化建议和调参流程,案例为复杂时间序列预测任务提供了有效的解决方案。
2025-06-12 16:22:07
393
原创 只用几十行PyTorch代码让GPU利用率猛涨!
摘要:北京大学校友张天远团队提出LaCT模型架构,通过大块更新策略(2000-100万tokens)显著提升GPU利用率至70%。该架构结合窗口注意力与大块测试时训练(LaCT),以无序集处理块内tokens并捕获局部依赖,增强并行性。实验表明,LaCT在百万级tokens的跨模态任务(如新视图合成、视频生成)中优于3D高斯泼溅等技术,且显存占用减少60%。开源代码显示其硬件效率突破(算力利用率65%-82%),为长上下文建模提供新范式。未来可拓展至动态块调整与多模态联合建模。
2025-06-11 13:43:15
520
原创 统计学核心概念与现实应用精解(偏机器学习)
深入浅出地讲解了统计学的核心概念及其应用。统计学主要围绕概率分布和期望展开,概率分布描述随机变量的可能取值及其可能性,期望则是加权平均值,反映长期平均结果。文章详细介绍了离散和连续随机变量的概率质量函数(PMF)和概率密度函数(PDF),累积分布函数(CDF),以及联合分布与边缘分布的关系。在统计学的两大学派中,频率派通过假设检验和p值进行决策,适用于可重复事件;贝叶斯派则结合先验概率和似然函数更新信念,适用于唯一事件。似然函数作为数据与参数之间的桥梁,通过最大似然估计(MLE)推断参数。统计学方法如假设检
2025-06-10 16:39:13
1081
原创 L1和L2核心区别 !!--part 2
本文深入探讨了 L1 和 L2 正则化的核心区别,及其在机器学习模型优化中的应用。L1 正则化通过产生稀疏解实现特征选择,适用于高维稀疏数据;L2 正则化则通过收缩系数提升模型稳定性,适合处理多重共线性问题。Elastic Net 结合两者优势,兼顾特征选择和模型稳定性。正则化通过限制模型复杂度,有效缓解过拟合,提升泛化能力。从优化角度看,L1 导致的非光滑问题需要特殊算法解决。通过实验和图像对比,直观展示了不同正则化方法在特征系数、预测误差等方面的表现差异。
2025-06-09 15:27:13
1053
原创 彻底讲透,L1和L2核心区别 !!
本文通过代码和实验深入剖析了L1正则化(Lasso)和L2正则化(Ridge)的区别。L1正则化约束区域为菱形,易与损失等高线尖角相切,使部分参数为零,实现特征选择;L2正则化约束区域为圆形,使参数均匀收缩。实验中,对于只有3个真正有用特征的数据,Lasso将不重要特征系数压缩为零,而Ridge只是将系数收缩。L1适合特征选择,L2适合系数稳定化,Elastic Net结合两者优势。
2025-06-08 19:20:22
557
原创 XGBoost时间序列预测之-未来销量的预测
本文介绍了基于XGBoost的时间序列销售预测模型构建过程。从问题定义与数据特征分析出发,阐述了业务目标、数据结构及技术挑战。接着解析XGBoost的核心原理,包括目标函数优化与加法训练策略。在特征工程部分,重点讲解滞后特征、滚动窗口特征等构建方法。模型架构部分涵盖特征矩阵构建、训练与预测流程。最后探讨模型优化、超参数调优及结合深度学习的拓展方案,为读者提供销售预测模型的实用指南。
2025-06-07 15:42:14
894
原创 50个pytorch的超强操作!!
本文全面深入地介绍了 PyTorch 的各项功能与操作,从基础张量操作如创建、形状变换、拼接到高级训练策略如 GPU 加速、分布式训练,再到模型构建、训练及评估,提供了详尽的讲解。涵盖了数据加载、处理、模型保存、加载以及多种优化技术,包括混合精度训练、模型剪枝和自动微分等,为读者呈现了一个全面的 PyTorch 学习与应用指南,帮助读者系统掌握 PyTorch 在深度学习中的广泛应用。
2025-06-06 23:33:32
1508
原创 深入浅出:Transformer 输入输出嵌入层的词向量映射与线性变换
本文围绕 Transformer 模型架构展开,重点解析其核心组件原理与复制任务实践。输入嵌入层通过嵌入矩阵将文本转换为向量,结合位置编码赋予序列顺序信息;自注意力机制经线性变换生成查询、键、值向量,计算注意力权重实现上下文感知;输出嵌入层则将向量映射回词汇表。通过复制任务实验,借助损失曲线、嵌入可视化、预测对比及注意力热力图验证模型有效性,结果表明模型能有效捕捉位置与语义信息,注意力机制聚焦自身位置,验证了 Transformer 基础架构在序列任务中的可行性,为复杂 NLP 任务提供理论与实践支撑。
2025-06-06 13:59:01
1017
原创 ReLU 激活函数:重大缺陷一去不复返!
上述替代函数均具有平滑特性(如连续可导),通过 FGI 机制注入梯度后,可无缝替代传统 ReLU,使得网络在负激活区域仍能进行有效梯度传播,从而提升深层网络的训练效率与表达能力(如图 8 所示,不同替代函数在负区域的梯度曲线差异显著,但均能通过 SUGAR 框架实现梯度注入)。这些函数通过为负预激活值引入非零激活,提供了不同的权衡。具体而言,通过 ** 前向梯度注入(FGI)** 机制,将替代函数的梯度信息直接注入网络的前向传播过程,从而在保持 ReLU 非线性特性的同时,避免因负输入导致的梯度消失问题。
2025-06-05 23:30:04
1079
1
原创 SVM超详细原理总结
支持向量机(SVM)是一种基于最大间隔分类的机器学习算法,适用于线性和非线性数据。本文系统阐述了SVM的核心原理:线性可分时的硬间隔优化、非线性数据的核方法映射(如RBF核),以及现实场景中的软间隔正则化(C参数控制)。通过鸢尾花数据集案例,展示了SVM的标准化预处理、网格搜索调参(C和gamma)及决策边界可视化方法,并分析了参数对模型性能的影响。SVM的关键优势在于最大化间隔带来的强泛化能力,但其性能依赖于核函数选择和参数调优,适用于中等规模的高维数据分类任务。
2025-06-04 19:01:39
717
原创 Adam、SGD、RMSprop优化器全面对比 !!
本文从对比分析的方向对深度学习中三种经典优化器(SGD、RMSprop、Adam)的性能特点进行了详细解释。比如SGD简单但收敛慢,适合简单模型;RMSprop通过自适应学习率有效处理梯度波动,在RNN中表现优异;Adam结合动量与自适应机制,收敛速度快且稳定,成为复杂网络的首选。实验显示,Adam和RMSprop在验证集损失和梯度控制方面均优于SGD,其中Adam表现出更集中的参数分布。建议根据任务复杂度选择优化器:简单任务用SGD,序列数据用RMSprop,复杂网络优先Adam。
2025-06-03 14:17:31
1383
原创 一文让你搞懂深度学习中神经网络的各层结构与功能
本文深入剖析了卷积神经网络(CNN)中卷积层、池化层、归一化层、激活函数、Flatten层和全连接层的原理与作用。卷积层通过局部连接和权重共享高效提取图像特征;池化层降维并保留关键特征;归一化层消除量纲差异,加速收敛;激活函数引入非线性,提升表达能力;Flatten层将多维特征映射为一维向量,连接卷积层与全连接层;全连接层整合特征,实现分类或回归。这些组件协同工作,赋予CNN强大的图像处理能力,广泛应用于分类、检测等任务。
2025-06-02 16:02:19
1194
原创 首个基于统计学的线性注意力机制ToST来了!
加州大学伯克利分校吴梓阳博士团队提出Token Statistics Transformer(ToST)模型,通过创新性的Token统计量自注意力机制(TSSA),将传统Transformer的二次方计算复杂度降至线性。该研究基于最大编码率缩减理论(MCR²)的变分形式,通过白盒架构设计实现高效特征提取,在NLP和CV任务中保持性能同时显著降低资源消耗。实验表明ToST在ImageNet等基准测试中媲美传统Transformer,且在长序列任务中表现出色。这项跨机构合作成果入选ICLR2025,为边缘计算、
2025-05-31 12:54:34
940
原创 详细到用手撕transformer下半部分
完整实现了Transformer的编码器-解码器架构,基于Vaswani等人2017年提出的经典设计。通过模块化构建编码器块、位置编码和训练组件,并利用PyTorch Lightning框架整合训练流程。在数字序列反转任务测试中,模型表现优异,验证了Transformer处理长距离依赖的能力。文章详细解析了多头注意力机制、残差连接等核心设计,并讨论了不同架构变体(如BERT、GPT)的应用场景。实现过程涵盖从底层注意力计算到完整模型训练的完整技术链,为理解Transformer工作机制提供了实践参考。
2025-05-30 13:43:20
991
原创 详细到用手撕transformer上半部分
本文聚焦 Transformer 架构核心 —— 自注意力机制及多头注意力机制。自注意力机制通过查询(Q)、键(K)、值(V)运算,基于相似性对输入加权求和,捕捉上下文信息。为处理复杂需求,扩展出多头注意力机制,利用多个查询 - 键 - 值三元组,使模型能同时关注序列不同方面,各头输出经拼接与融合增强表达力。还介绍了相关代码实现及多头注意力机制输入的置换等变性,强调介绍了位置编码恢复序列顺序信息的必要性。
2025-05-29 16:44:10
1013
原创 回归算法模型之线性回归
从讲解线性回归的原理到整个算法模型的完整流程,本文是以从数据到模型的 6 大核心步骤来介绍的。最后用一个经典的用线性回归预测房价的完整的案例来给读者们增加对线性回归的应用的思想。
2025-05-28 23:22:21
1109
原创 Transformer不同位置编码方式的几何特征比较
探讨了Transformer模型中不同位置编码方式的几何特征与性能差异。此外也详细解析了正余弦位置编码的周期性特征、可学习位置编码的灵活性、相对位置编码的距离建模能力以及旋转位置编码的几何不变性。通过PyTorch实现的对比实验展示了各编码方式在高维空间的可视化分布和训练动态。实验结果表明,正弦编码具有稳定的周期性结构,而可学习编码在数据充足时表现更优。文章还提出了混合编码等优化方案,并提供了系统化的调参流程,为Transformer位置编码的选择和优化提供了实践指导。
2025-05-27 15:10:36
800
原创 CNN + RNN的最强组合!!!
系统介绍了CNN与RNN组合模型的核心优势。同时也分别介绍了CNN的优势,RNN的优势。然后还通过案例演示了CNN-LSTM网络在目标位置预测任务中的实现过程,包括数据构建、模型架构设计及训练优化策略。
2025-05-26 14:51:23
800
原创 归一化 超全总结!!
本文系统介绍了机器学习中的归一化技术,包括最小-最大归一化、标准化、小数定标归一化、均值归一化和单位长度归一化。这些方法通过调整特征尺度,有效解决数据尺度差异问题,提升算法性能。文章详细解析了各类归一化的数学原理、适用场景及实现代码,特别强调了归一化对梯度下降类算法(如神经网络)的重要性,以及如何根据数据类型选择合适方法(如Min-Max用于图像,Z-score用于金融数据)。同时指出树模型等对尺度不敏感的算法无需归一化,提醒注意避免数据泄漏。通过可视化对比,展示了归一化对模型精度和稳定性的提升效果。
2025-05-24 20:59:47
1190
原创 详谈为什么大多数交叉验证可视化是错误的(如何修复它们)
形象的概述了交叉验证是什么,以及目前交叉验证图可视化的问题,还提出了更好的方法去可视化交叉验证以及解释了为什么这种方法更好。
2025-05-24 13:29:23
883
原创 数据挖掘算法大汇总
解释了目前几乎所有的数据挖掘经典算法,并附代码。涵盖:18 大算法涵盖关联规则(如 Apriori、FP-Tree)、分类(如 CART、KNN)、聚类(如 KMeans、BIRCH)、集成学习(如 AdaBoost)等任务,其他算法包括蚁群算法、贝叶斯网络、DBSCAN 等。
2025-05-23 22:50:37
1798
原创 基于 ARIMA 与贝叶斯回归的时间序列分析:结合趋势季节性与不确定性量化(附 PyTorch 变分贝叶斯实现)
结合ARIMA模型与贝叶斯回归进行时间序列预测,还对不确定性分析的方法进行阐述。比如解释了ARIMA模型擅长捕捉时间序列中的趋势和周期性,但其预测结果通常为点估计,难以量化不确定性。贝叶斯回归通过概率分布描述参数的不确定性,能够结合先验知识和观测数据,提供预测的置信区间。将两者结合,ARIMA用于建模时间序列的结构化特征,贝叶斯回归则处理模型参数的不确定性,从而提升预测精度并量化预测的不确定性。文章还通过虚拟数据案例,展示了从数据生成、模型训练到预测及不确定性分析的完整流程,并提供了代码实现和可视化分析。
2025-05-23 14:00:19
1227
原创 深度学习之-目标检测算法汇总(超全面)
概括了目前YOLO目标检测模型从YOLOv1到YOLOv12的演进,并介绍了多种改进方法。这些改进包括引入注意力机制、多尺度特征融合、模型轻量化、与其他新技术结合(如Mamba模型、扩散模型等),以及优化损失函数和训练策略。文章还探讨了YOLO在农业、医疗、交通等领域的应用,并展示了其在复杂场景中的检测性能提升。此外,文章介绍了基于Transformer和MLP的目标检测改进方法,以及如何将大模型(如SAM)应用于目标检测任务。这些改进不仅提高了检测精度,还增强了模型的实时性和适应性。
2025-05-22 23:28:02
2000
原创 目前最详细的模型校准讲解:面向初学者(带代码示例的可视化指南)
首先对校准做了详细的解释,然后以天气预测高尔夫球活动的数据集为例,展示了如何训练和评估四种分类模型(KNN、伯努利朴素贝叶斯、逻辑回归和MLP)的校准性能。结果表明,KNN模型在校准方面表现最佳,而其他模型在不同程度上存在校准问题。理解并改进模型校准对于构建可靠的机器学习系统至关重要。
2025-05-22 13:00:44
1084
原创 时间序列预测的迁移学习
探讨迁移学习在时间序列预测中的应用,借助开源 Darts 库实现模型训练与预测。讨论传统机器学习方法在时间序列预测中存在数据依赖和训练成本问题,用迁移学习可在多样化数据集上训练模型后,直接用于不同数据集预测,兼具元学习特性,推理时无需额外训练,适合低推理时间场景。此外,还通过 Darts 库演示单变量序列预测,展示其处理多变量、概率预测及结合外部数据的能力,提供关键代码片段与复现结果的完整笔记本。
2025-05-21 14:45:13
1073
原创 如何微调大型语言模型 (LLM)-一文教会你使用 QLoRA 在自定义数据集上微调LLM
介绍大型语言模型(LLM)微调方法,重点阐述参数高效微调(PEFT)技术,如 LoRA 和 QLoRA,通过冻结大部分参数、仅更新子集来降低计算成本。教程以 QLoRA 微调 Phi-2 模型为例,演示了安装库、加载数据集、预处理、模型配置及训练等步骤,最终通过 ROUGE 指标验证,显示微调后模型性能显著提升,强调微调对优化 LLM 特定任务表现的重要性。
2025-05-20 14:52:18
922
原创 从零开始训练一个CLIP
介绍CLIP多模态模型是上面?以及它的原理。然后通过对比学习将图像和文本映射到同一向量空间。借助 MiniClip 项目演示,利用 Hugging Face Trainer,涵盖模型配置、数据预处理等模块。可加载预训练权重,也可从头训练,用 FAISS 检索评估,还构建 Gradio 界面可视化结果,展现 CLIP 核心训练及应用流程。
2025-05-19 22:59:49
1016
原创 随机森林和神经网络的最强组合!!!
结合神经网络与随机森林开展分类实践。用 PyTorch 实现多层感知机提取高阶特征,Scikit - learn 实现随机森林,通过特征融合训练集成模型。对原始数据分布、两模型决策边界及集成模型预测曲线进行可视化,还阐述了神经网络、随机森林的优化要点与调参流程。
2025-05-19 15:08:44
884
原创 50个Python常用的模块,配对应的官网文档!!
整理了一个覆盖面比较广泛的Python脚本示例,涉及到机器学习、数据处理、还有算法人可能会遇到自己写后台的一些案例。此外,每个模块不仅提供了可直接运行的代码示例,还在底部附上了官方文档直达链接,方便快速查询细节用法。此外,我还绘制了一张模块关系云图,帮你直观梳理不同领域的技术关联。所有代码和资源都整理在文末,建议收藏以备不时之需!
2025-05-17 14:57:29
1166
原创 7 个正则化算法完整总结
介绍了机器学习中解决过拟合的正则化算法的7种常用方法。比如:L1、L2 及弹性网络通过损失函数惩罚项控制参数;Dropout 随机丢弃神经元增强泛化;贝叶斯方法从概率视角正则化;早停法监控验证集提前终止训练;数据增强扩充数据多样性。这些方法从不同维度限制模型复杂度,提升泛化能力。
2025-05-16 19:57:11
1695
原创 1C:ENTERPRISE 8.3 实用开发者指南-示例和标准技术(Session1-Session3)
全网首篇中文 1C:Enterprise 8.3 指南博客,面向初级开发人员。本博客是讲解第一课-第三课,涵盖1C:Enterprise的简介,子系统,目录。基于实际示例,详解系统对象结构、功能与用法,内置语言程序(含查询语言)附详细注释。既是实践指南,也是中文参考书,方案融合开发经验,展现 8.3 版本新可能与机制,助力快速掌握IC:Enterprise的开发与应用程序调整技术。
2025-05-15 22:14:41
1230
原创 scikit-learn在无监督学习算法的应用
本文介绍了使用Scikit-learn库在Python中实现无监督学习算法的案例,涵盖了K-Means聚类、层次聚类、DBSCAN、主成分分析(PCA)、独立成分分析(ICA)和高斯混合模型(GMM)。这些算法主要用于数据的聚类、降维和信号分离等任务。文章详细描述了每个算法的实现步骤,包括数据准备、标准化、模型训练和结果可视化,并提供了代码示例。通过这些算法,用户可以从无标签数据中提取有用的信息,进行数据分析和模式识别。文章还强调了算法选择和参数调优的重要性,以在实际应用中取得最佳效果。
2025-05-14 23:30:22
899
原创 从原理到实践讲透十大最优化算法
本博客从概念到实践去解了多种常见的最优化算法,包括一阶优化算法、二阶优化算法、自适应学习率优化算法、基于线性规划的优化算法、具有约束条件的优化算法等。
2025-05-14 20:15:44
1234
原创 讲透常用十大数据清洗方法
本文详细的介绍了数据清洗与处理,介绍 10 种重要方法。涵盖缺失值、异常值处理等基础操作,以及数据归一化、离散化等优化手段,还有文本数据清洗和特征工程等关键技术。通过原理、优缺点、适用场景及核心案例代码展示,帮助读者理解数据处理流程,为提升数据质量、优化模型性能提供有效方法,助力数据分析与建模工作。
2025-05-13 22:01:23
1417
原创 用1W字讲透数据预处理,数据增强
本文以 PyTorch 框架结合 CIFAR-10 图像分类任务,探讨数据增强技术。通过 RandomHorizontalFlip、RandomRotation 等多种增强策略,模拟图像视角、角度、光照等变化,丰富数据集多样性。搭配 SimpleCNN 模型,经训练验证,数据增强有效缓解过拟合,提升模型泛化能力,在图像任务预处理中具有不可或缺的地位,尤其适用于数据有限或类别不平衡场景。
2025-05-12 20:49:57
772
原创 吃透 PyTorch:基础操作、模型训练与前沿应用
从上篇pytorch博客的基础上聚焦其基础操作,从张量处理、数学运算、数据管理,到神经网络构建、模型训练全流程等 19 个方面展开,涵盖 70 个细节操作。提供快速入门路径,通过系统化梳理与实践指导,助力初学者夯实基础,更好的了解深度学习模型开发与应用。
2025-05-12 14:57:35
766
原创 从概念到案例到实战全方位的解读专家系统(可能是专家系统在CSDN目前最细致的文章)
先介绍了专家系统的概念,然后介绍了专家系统的核心组件有哪些,再介绍专家系统的分类有哪些?然后从经典案例去介绍。最后结合当下五种流行的专家系统的实现。
2025-05-10 16:10:08
1463
原创 5 种距离算法总结!!
机器学习领域中常用的 5 种距离算法,深入剖析其原理、应用场景、Python 代码实现及可视化呈现。欧几里德距离以直线长度度量空间差异,在多领域广泛应用;曼哈顿距离模拟网格路径,适用于路径规划等场景;切比雪夫距离以最大维度差距衡量向量差异;闵可夫斯基距离作为通用公式,通过参数变化统一多种距离度量;余弦相似度则从向量夹角判断数据相似性,常用于文本、推荐系统等。文中不仅给出各算法详细计算公式与代码示例,还通过可视化辅助理解,为数据挖掘、机器学习等实践提供全面参考。
2025-05-09 19:11:55
962
原创 超详细讲解注意力机制、自注意力机制、多头注意力机制、通道注意力机制、空间注意力机制
系统介绍了深度学习中多种重要的注意力机制。从基础的注意力机制出发,详细阐述其原理及计算过程,进而延伸至自注意力、多头注意力机制,解决输入相关性挖掘与特征学习问题。同时,深入探讨通道与空间注意力机制,如 SENet、ECA、STN 等,分别从通道与空间维度强化关键特征。这些机制通过不同方式筛选和利用信息,在计算机视觉领域广泛应用,显著提升模型性能。
2025-05-08 19:52:06
1457
原创 怒写3.5W字,含九大决策树模型!超详细总结来了
本文系统介绍了多种决策树模型。ID3 通过信息增益划分数据,C4.5 和 C5.0 在此基础上不断改进,CHAID 则基于卡方检验构建决策树。集成学习模型中,随机森林通过构建多棵树投票或平均预测;GBDT 迭代拟合残差优化模型;XGBoost 引入正则化提升泛化能力;LightGBM 采用直方图分桶等技术提高效率。这些模型在特征选择、数据处理、优化策略等方面各有特点,广泛应用于分类和回归任务,为解决不同场景下的机器学习问题提供了多样化的选择。
2025-05-07 19:58:45
988
1
【0 基础也能懂!】系列超市小票 + 奶茶订单:自创5 个生活场景数据集(含脏数据)
2025-03-13
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人