DL/R
文章平均质量分 77
本专栏主要讲解与分享与深度学习领域、推荐领域相关的技术,包括各自案例实现,以及该领域的感悟和经验积累。
一个处女座的程序猿
2025年初博主2本新书(机器学习耗时5年/大模型耗时3年)正在热售中!人工智能硕学历,拥有十多项发专利(6项)和软著(9项),包括国际期刊SCI内多篇论文,多个国家级证书(2个国三级、3个国四级),曾获国内外“人工智能算法”竞赛(包括国家级省市级等,一等奖5项、二等奖4项、三等奖2项)证书十多项,以上均第一作者身份,并拥有省市校级个人荣誉证书十多项。目前也是国内知名博主,连续3年获CSDN十大博客之星,荣获达摩院评测官、阿里社区/CSDN/华为社区等十多个开发者社区专家博主荣誉,曾受邀阿里/华为/谷歌等社区采访-评审-论坛几十次。截止2022年,AI领域粉丝超100万,文章阅读量超5000万
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Transformer之MoE之Engram :《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large La
Transformer之MoE之Engram :《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》翻译与解读《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》翻译与解读地址论文地址原创 2026-01-14 08:52:44 · 1266 阅读 · 0 评论 -
DL之Titans_MIRAS:在执行时用“惊讶度”驱动记忆写入的长期记忆架构与统一理论框架 —— 从超越 MSE 的 MIRAS 设计空间(包含 YAAD、MONETA、MEMORA 三种注意力自由
DL之Titans/MIRAS:在执行时用“惊讶度”驱动记忆写入的长期记忆架构与统一理论框架 —— 从超越 MSE 的 MIRAS 设计空间(包含 YAAD、MONETA、MEMORA 三种注意力自由鲁棒记忆变体)到 Titans 的深度记忆模块、动量与自适应遗忘实现,及其在 BABILong、基因组与极长上下文任务上扩展到百万级 tokens 并在效率与精度上超越更大模型的实证研究与工程实践要点目录《Titans + MIRAS原创 2026-01-03 23:55:23 · 946 阅读 · 0 评论 -
DL之Transformer之mHC:《mHC: Manifold-Constrained Hyper-Connections》翻译与解读
DL之Transformer之mHC:《mHC: Manifold-Constrained Hyper-Connections》翻译与解读目录《mHC: Manifold-Constrained Hyper-Connections》翻译与解读Abstract1、Introduction6 Conclusion and Outlook《mHC: Manifold-Constrained原创 2026-01-01 23:39:30 · 2252 阅读 · 0 评论 -
DL之CTM:《Continuous Thought Machines》翻译与解读
DL之CTM:《Continuous Thought Machines》翻译与解读目录《Continuous Thought Machines》翻译与解读Abstract1、Introduction8 Discussion and Conclusion《Continuous Thought Machines》翻译与解读地址https://arxiv.org/abs/2原创 2025-05-31 08:10:05 · 1011 阅读 · 0 评论 -
LLMs之RL:《LightSearcher: Efficient DeepSearch via Experiential Memory》翻译与解读
LLMs之RL:《LightSearcher: Efficient DeepSearch via Experiential Memory》翻译与解读目录《LightSearcher: Efficient DeepSearch via Experiential Memory》翻译与解读Abstract1、Introduction7 Conclusion《LightSearcher: Efficien原创 2025-12-20 23:17:10 · 858 阅读 · 0 评论 -
DL之NestedLearning:《Introducing Nested Learning: A new ML paradigm for continual learning》翻译与解读
DL之NestedLearning:《Introducing Nested Learning: A new ML paradigm for continual learning》翻译与解读目录《Introducing Nested Learning: A new ML paradigm for continual learning》翻译与解读AbstractIntroductionThe Nested Learning para原创 2025-11-30 22:37:57 · 1112 阅读 · 0 评论 -
LLMs之GatingMechanisms:《Gated Attention for Large Language Models: Non-linearity, Sparsity, and Atten
LLMs之GatingMechanisms:《Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free》翻译与解读目录《Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-S原创 2025-11-29 12:19:07 · 1422 阅读 · 0 评论 -
CV:计算机视觉技术之图像基础知识(二)—图像内核的可视化解释实现
CV:计算机视觉技术之图像基础知识(二)—图像内核的可视化解释实现目录计算机视觉技术之图像基础知识(二)—图像内核的可视化解释实现计算机视觉技术之图像基础知识(二)—图像内核的可视化解释实现官网Demo:https://setosa.io/ev/image-kernels/...原创 2020-11-24 19:27:24 · 958 阅读 · 0 评论 -
LLMs之SFT之CHORD:《On-Policy RL Meets Off-Policy Experts: Harmonizing Supervised Fine-Tuning and Reinfo
LLMs:《On-Policy RL Meets Off-Policy Experts: Harmonizing Supervised Fine-Tuning and Reinforcement Learning via Dynamic Weighting》的翻译与解读目录《On-Policy RL Meets Off-Policy Experts: Harmonizing Supervised Fine-Tuning and原创 2025-10-23 23:00:00 · 1373 阅读 · 0 评论 -
Paper:RNN之《Generating Sequences With Recurrent Neural Networks用循环神经网络生成序列》的翻译和解读
利用长短期记忆递归神经网络,通过简单地预测一个数据点来实现长时间的复杂序列生成。该方法适用于文本(数据是离散的)和在线手写(数据是实值的)。然后,通过允许网络根据文本序列调整预测,将其扩展到手写合成。由此产生的系统能够生成多种风格的高度逼真的草书。递归神经网络(RNNs)是一类丰富的动态模型,被用于生成音乐[6,4]、文本[30]和动作捕捉数据[29]等领域的序列。通过一步一步地处理真实的数据序列并预测接下来会发生什么,可以训练RNNs来生成序列。假设预测是概率性的,原创 2020-03-15 14:08:31 · 10296 阅读 · 1 评论 -
ML之ggml:ggml框架(专注Transformer推理的机器学习库)的简介、安装和使用方法、案例应用之详细攻略
ML之ggml:ggml框架(专注Transformer推理的机器学习库)的简介、安装和使用方法、案例应用之详细攻略目录ggml的简介ggml的安装和使用方法ggml的案例应用ggml的简介2024年8月发布,ggml 是一个用 C 和 C++ 编写的机器学习库,专注于 Transformer 推理。它是一个开源项目,由一个不断壮大的社区积极开发。ggml 与 PyTorch 和 TensorFlow 等 ML 库类似,但仍处于开发初期,一些基本原理仍在快速变化。原创 2024-08-23 02:21:27 · 4283 阅读 · 0 评论 -
AI之Transformer:Transformer算法原理探索之基于 Transformer 模型层的中间层表示空间及其对计算效率的影响之实证研究
AI之Transformer:Transformer探索之基于 Transformer 模型层的中间层表示空间及其对计算效率的影响之实证研究目录相关文章基于 Transformer 模型层的中间层表示空间及其对计算效率的影响之实证研究相关文章《Transformer Layers as Painters》翻译与解读地址论文地址:https://arxiv.org/abs/2407.09298v1时间2024年7月12日作者Q原创 2024-07-24 23:37:13 · 2305 阅读 · 0 评论 -
AI之AI by Hand:AI by Hand(手动自定义AI算法的数学逻辑)的简介、使用方法、案例应用之详细攻略
AI之AI by Hand:AI by Hand(手动自定义AI算法的数学逻辑)的简介、使用方法、案例应用之详细攻略目录AI by Hand的简介AI by Hand的使用方法AI by Hand的案例应用AI by Hand的简介AI by Hand的背景起源于这样一个现象:目前每周发表的AI论文数量极其庞大,即便是计算机科学领域的教授也难以完全理解这些内容。这些论文通常包含大量的数学公式、图表、表格、引文以及长篇附录,使得信息的消化变得困难。为了解决这一问题,Tom原创 2024-07-28 12:22:45 · 4693 阅读 · 0 评论 -
ML之CF:基于MovieLens电影评分数据集利用基于用户协同过滤算法(基于cosine的NNeighbors)实现对用户进行Top5电影推荐案例—加载数据集→数据预处理(将原始ratings评分数
ML之CF:基于MovieLens电影评分数据集利用基于用户协同过滤算法(基于cosine的NearestNeighbors)实现对用户进行Top5电影推荐案例—加载数据集→数据预处理(将原始ratings评分数据转化为用户-物品评分矩阵)→划分数据集并创建矩阵→模型训练(采用无监督的NNeighbors算法实现用户-用户的协同过滤算法)→模型评估(回归评估【RMSE/MAE】+分类评估【P/R/F1/AUC/覆盖率coverage_TestONTrain】/MAP_by_All/MAP_by_TopK原创 2024-06-25 01:35:59 · 699 阅读 · 0 评论 -
DL之LF:损失函数简介——交叉熵损失和负对数似然损失的联系与区别、二分类(二元交叉熵+Sigmoid函数)、多分类(多元交叉熵+Softmax函数)
DL之LF:损失函数简介——交叉熵损失和负对数似然损失的联系与区别、二分类(二元交叉熵+Sigmoid函数)、多分类(多元交叉熵+Softmax函数)目录对比:交叉熵损失(分类问题的损失函数,常用于分类问题+DL)、负对数似然损失(衡量分布之间差异,常用于概率模型+LLM)对比:交叉熵损失(分类问题的损失函数,常用于分类问题+DL)、负对数似然损失(衡量分布之间差异,常用于概率模型+LLM)CELoss简介交叉熵损失(Cross-Entropy Loss,CELoss)是信息论中的一原创 2023-12-16 01:15:30 · 1100 阅读 · 0 评论 -
DL之LSTM:基于正弦函数(输入)-余弦函数(目标输出)的数据集和TensorFlow框架利用LSTM算法预测时间序列数据(学习并拟合周期性模型)+动态实时真实值对比可视化
前缀调整通过在注意力机制的键和值部分添加可学习的权重,为模型提供了一种强大的微调手段,可以更好地捕捉任务特定的模式,并与提示调整等其他技术相辅相成,提供了一种灵活和强大的任务特定优化手段。原创 2024-05-03 00:27:01 · 1128 阅读 · 0 评论 -
DL之GC:梯度检查点(Gradient Checkpointing,GC)的简介、实现代码、案例应用之详细攻略
DL之GC:梯度检查点(Gradient Checkpointing,GC)的简介、实现代码、案例应用之详细攻略目录相关论文梯度检查点(Gradient Checkpointing,GC)的简介梯度检查点的实现代码梯度检查点的案例应用相关论文《Training Deep Nets with Sublinear Memory Cost》翻译与解读地址论文地址:https://arxiv.org/abs/1604.06174时间2016年4月21日作者T原创 2020-01-12 09:55:02 · 1270 阅读 · 1 评论 -
DL之Transformer:《The Annotated Transformer带注释的变压器》的翻译与解读—思路步骤及实现代码
DL之Transformer:《The Annotated Transformer带注释的变压器》的翻译与解读—包括代码目录《The Annotated Transformer》的翻译与解读导言背景第1部分:模型体系结构第2部分:模型训练第3部分:一个真实世界的例子结果结论《The Annotated Transformer》的翻译与解读地址GitHub地址:GitHub原创 2023-12-16 01:16:31 · 1480 阅读 · 0 评论 -
XAI之TDB:transformer-debugger的简介、安装和使用方法、应用案例之详细攻略
XAI之TDB:transformer-debugger的简介、安装和使用方法、应用案例之详细攻略目录transformer-debugger的简介transformer-debugger的安装和使用方法transformer-debugger应用案例transformer-debugger的简介2024年3月12日,Transformer Debugger(TDB)是由OpenAI的Superalignment团队开发的工具,旨在支持对小型语言模型特原创 2024-03-13 22:44:53 · 2414 阅读 · 1 评论 -
AI之DL:人工智能领域—深度学习的发展历程之深度学习爆发的三大因素、探究DL为什么耗算力
针对梯度消失等问题,算法进行了优化。,比如深度神经网络的梯度消失问题,神经网络长期以来存在的问题是梯度消失,即在反向传播过程中,每一层都乘以激活函数的导数值,如果这个导数的绝对值小于1,经过多次乘法后梯度很快趋近于零,导致前面的层无法得到有效的更新。:如图是基于TensorFlow 的分布式学习的效果,横轴是GPU的个数,纵轴是与单个GPU相比时的加速倍数。>> 位数精度的缩减加速: 提到了降低位数精度的技术,即使用较低位数的浮点数来表示权重和激活值,从而减轻计算负担,实现深度学习的高速化。原创 2024-01-28 23:36:12 · 1768 阅读 · 1 评论 -
LLM之LangChain:LangChain 0.1.0 版本发布的简介、安装和使用方法、案例应用之详细攻略
LLM之LangChain:LangChain 0.1.0 版本发布的简介、安装和使用方法、案例应用之详细攻略目录相关文章LangChain 0.1.0 版本发布的简介LangChain 0.1.0 版本的安装和使用方法LangChain 0.1.0 版本的案例应用相关文章Py之Langchain:Langchain(LLM大型语言模型应用程序框架/将LLMs个体进行flow的能力)的简介、安装、使用方法之详细攻略https原创 2024-01-14 23:09:41 · 4146 阅读 · 0 评论 -
NLP之ELECTRA:ELECTRA的简介、安装和使用方法、案例应用之详细攻略
NLP之ELECTRA:ELECTRA的简介、安装和使用方法、案例应用之详细攻略目录相关论文ELECTRA的简介ELECTRA的安装和使用方法ELECTRA的案例应用相关论文《ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators》翻译与解读地址论文地址:https://arxiv.org/abs/2003.10555时间2020年3月23原创 2020-07-01 13:21:36 · 13648 阅读 · 2 评论 -
NLP之LLMs之T5:T5/FLAN-T5【Fine-tuned Language Net with T5】的简介(包括论文解读)、安装和使用方法、案例应用之详细攻略
NLP之LLMs之T5:T5/FLAN-T5【Fine-tuned Language Net with T5】的简介(包括论文解读)、安装和使用方法、案例应用之详细攻略目录T5的简介T5的安装和使用方法T5的案例应用相关论文3、Experiments实验4、Reflection反思T5的简介T5: 文本到文本的传输Transformer。截至2022年7月,我们建原创 2019-11-07 22:55:02 · 6352 阅读 · 1 评论 -
NLP之DeBERTa:DeBERTa的简介、安装和使用方法、案例应用之详细攻略
NLP之DeBERTa:DeBERTa的简介、安装和使用方法、案例应用之详细攻略目录相关论文DeBERTa的简介DeBERTa的安装和使用方法DeBERTa的案例应用相关论文《DeBERTa: Decoding-enhanced BERT with Disentangled Attention》翻译与解读地址论文地址:https://arxiv.org/abs/2006.03654时间2020年6月5日作者Peng原创 2020-07-06 08:43:15 · 7537 阅读 · 1 评论 -
NLP之ERNIE:ERNIE的简介、安装和使用方法、案例应用之详细攻略
NLP之ERNIE:ERNIE的简介、安装和使用方法、案例应用之详细攻略目录相关论文ERNIE的简介2、预训练模型介绍3、数据集下载4、模型效果评估ERNIE的安装和使用方法ERNIE的案例应用相关论文《ERNIE: Enhanced Representation through Knowledge Integration》翻译与解读地址论文地址:https://arxiv.org/abs/原创 2019-05-24 11:41:38 · 10795 阅读 · 1 评论 -
NLP之DistilBERT:DistilBERT的简介、安装和使用方法、案例应用之详细攻略
NLP之DistilBERT:DistilBERT的简介、安装和使用方法、案例应用之详细攻略目录相关论文DistilBERT的简介DistilBERT的安装和使用方法DistilBERT的案例应用相关论文《DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter》翻译与解读地址论文地址:https://arxiv.org/abs/1910.01108时间原创 2019-11-07 22:28:45 · 6082 阅读 · 1 评论 -
NLP之ALBERT:ALBERT的简介、安装和使用方法、案例应用之详细攻略
NLP之ALBERT:ALBERT的简介、安装和使用方法、案例应用之详细攻略目录相关论文ALBERT的简介ALBERT的安装和使用方法ALBERT的案例应用相关论文《ALBERT: A Lite BERT for Self-supervised Learning of Language Representations》翻译与解读地址论文地址:https://arxiv.org/abs/1909.11942时间2019年9月26日原创 2019-10-15 23:58:56 · 5980 阅读 · 1 评论 -
NLP之RoBERTa:RoBERTa的简介、安装和使用方法、案例应用之详细攻略
NLP之RoBERTa:RoBERTa的简介、安装和使用方法、案例应用之详细攻略目录相关论文RoBERTa的简介RoBERTa的安装和使用方法RoBERTa的案例应用相关论文《RoBERTa: A Robustly Optimized BERT Pretraining Approach》翻译与解读地址论文地址:https://arxiv.org/abs/1907.11692时间2019年7月26日作者Yinhan Liu, Myl原创 2019-08-29 18:35:18 · 10899 阅读 · 1 评论 -
NLP之BERT:BERT的简介、安装和使用方法、案例应用之详细攻略
NLP之BERT:BERT的简介、安装、使用方法之详细攻略目录相关文章BERT的简介BERT的安装BERT的使用方法相关文章Paper:《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding用于语言理解的深度双向Transformers预训练模型》翻译与解读https://yunyaniu原创 2019-01-31 20:51:09 · 9524 阅读 · 1 评论 -
Paper:《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding用于语言理解的深度双向Tr
Paper:《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding用于语言理解的深度双向Transformers预训练模型》翻译与解读目录Paper:《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》翻译与解读Abstract1、Introductio原创 2019-03-02 22:57:15 · 10710 阅读 · 1 评论 -
LLMs:Ghost Attention(GAtt)机制的简介(改进多轮对话+帮助注意力聚焦)、原理、作用之详细攻略
LLMs:Ghost Attention(GAtt)机制的简介(改进多轮对话+帮助注意力聚焦)、原理、作用之详细攻略目录来源Ghost Attention(GAtt)机制的简介、原理、作用来源LLMs之LLaMA-2:LLaMA-2的简介(技术细节)、安装、使用方法(开源-免费用于研究和商业用途)之详细攻略https://yunyaniu.blog.csdn.net/article/details/131819938Ghost Attention(GAtt)机制的简介、原理、作原创 2024-01-10 21:42:48 · 1950 阅读 · 1 评论 -
CV之DL之Cascade R-CNN:Cascade R-CNN的简介、安装、使用方法之详细攻略
CV之DL之Cascade R-CNN:Cascade R-CNN的简介、安装、使用方法之详细攻略目录相关论文Cascade R-CNN的简介Cascade R-CNN的安装Cascade R-CNN的使用方法相关论文《Cascade R-CNN: Delving into High Quality Object Detection》翻译与解读地址论文地址:https://arxiv.org/abs/1712.00726时间2017年1原创 2018-05-19 12:47:21 · 10440 阅读 · 2 评论 -
MLLM:《揭秘GPT-4:OpenAI架构背后的工程权衡—GPT-4 Architecture, Infrastructure, Training Dataset, Costs, Vision, M
MLLM:《揭秘GPT-4:OpenAI架构背后的工程权衡—GPT-4 Architecture, Infrastructure, Training Dataset, Costs, Vision, MoE》翻译与解读目录《GPT-4 Architecture, Infrastructure, Training Dataset, Costs, Vision, MoE》翻译与解读开始探讨:GPT-4的模型架构、训练基础设施、推理基础设施、参数数量、训练数据集组成、令牌数量、层数量原创 2023-07-20 00:00:44 · 1774 阅读 · 0 评论 -
CV之DL之Yolo:计算机视觉领域算法总结—Yolo系列(YoloV1~YoloV8各种对比)的简介、安装、案例应用之详细攻略
CV之DL之Yolo:计算机视觉领域算法总结—Yolo系列(YoloV1~YoloV8各种对比)的简介、安装、案例应用之详细攻略目录相关文章Yolo系列(YoloV1~YoloV8各种对比)的简介、安装、案例应用Yolo系列的安装Yolo系列的案例应用相关文章CV之Yolox系列:YOLO-v1到YOLO-v8系列算法讲解:YOLO的兴起及其在数字制造和工业缺陷检测领域的互补性https://yunyaniu.blog.csdn.net/原创 2024-01-07 20:21:05 · 4546 阅读 · 3 评论 -
CV之DL之YOLOv6:YOLOv6的简介、安装和使用方法、案例应用之详细攻略
CV之DL之YOLOv6:YOLOv6的简介、安装和使用方法、案例应用之详细攻略目录相关论文《YOLOv6: A Single-Stage Object Detection Framework for Industrial Applications》翻译与解读AbstractYOLOv6的简介1、更新日志2、模型性能旧版模型量化模型移动端模型指标YOLOv6的安装和使用方法1、安装2、在自定义数据集上微调模型单卡多卡 (我们推荐使用 D原创 2022-07-31 11:33:04 · 2348 阅读 · 0 评论 -
CV之DL之YOLOv7:YOLOv7的简介、安装和使用方法、案例应用之详细攻略
CV之DL之YOLOv7:YOLOv7的简介、安装和使用方法、案例应用之详细攻略目录相关论文YOLOv7的简介YOLOv7的安装和使用方法YOLOv7的案例应用相关论文《YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors》翻译与解读地址论文地址:https://arxiv.org/abs/2207.02696原创 2022-08-09 18:59:00 · 24907 阅读 · 0 评论 -
CV之DL之YOLOv8:YOLOv8的简介、安装和使用方法、案例应用之详细攻略
CV之DL之YOLOv8:YOLOv8的简介、安装和使用方法、案例应用之详细攻略目录YOLOv8的简介YOLOv8的安装和使用方法YOLOv8的案例应用YOLOv8的简介2023年1月11日,Ultralytics重磅发布YOLOv8。Ultralytics YOLOv8是一种前沿、最先进(SOTA)的模型,它在之前的YOLO版本的成功基础上进行了改进,引入了新的功能和改进,以进一步提升性能和灵活性。YOLOv8旨在快速、准确且易于使原创 2023-03-21 22:05:34 · 6339 阅读 · 0 评论 -
CV之OD:计算机视觉领域目标检测任务代表性算法原理简介(R-CNN、Fast R-CNN、Faster R-CNN、R-FCN、FPN、SSD、YOLO~YOLOv3)、FPN、RetinaNet
CV之OD:计算机视觉领域目标检测任务代表性算法原理简介(R-CNN、Fast R-CNN、Faster R-CNN、R-FCN、FPN、SSD、YOLO~YOLOv3)、FPN、Focal Loss(RetinaNet)、目标检测算法的设计选择、经验教训和趋势目录相关论文计算机视觉领域目标检测任务代表性算法及其原理简介相关论文《What do we learn from region based object detectors (Faster R-CNN, R-FCN, F原创 2023-12-15 01:34:48 · 1301 阅读 · 0 评论 -
CNN之OverFeat:OverFeat的简介、使用方法、案例应用之详细攻略
CNN之OverFeat:OverFeat的简介、使用方法、案例应用之详细攻略目录相关论文OverFeat的简介OverFeat的案例应用相关论文《OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks》的翻译与解读地址论文:https://arxiv.org/abs/1312.6229时间2013年12月21日作者Pierre Se原创 2023-11-23 22:36:11 · 1337 阅读 · 0 评论 -
DL之RNN/LSTM/GRU:《Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling门控循环神经网
DL之RNN/LSTM/GRU:《Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling门控循环神经网络在序列建模上的实证评估》的翻译与解读目录《Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling》的翻译与解读Abstract1 Introduction3 Gated Recurrent原创 2018-08-19 23:55:45 · 15936 阅读 · 2 评论
分享