神经网络与深度学习
文章平均质量分 91
较全面地介绍了神经网络、机器学习和深度学习的基本概念、模型和方法,同时也涉及深度学习中许多最新进展.书后还提供了相关数学分支的简要介绍,以供读者需要时参考.
DeepModel
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
第14章 注意力机制与Transformer
在处理当前信息时,模型会自动计算它与序列中其他所有信息的“关联程度”,并赋予不同的权重。“不问过往,只问相关”。无论某个词在句子的开头还是结尾,只要它和当前词相关,模型就能直接“看到”它,并给予高权重。注意力三要素:理解 Query、Key、Value 的含义,这是所有注意力机制的基础。自注意力的本质:模型在处理序列时,动态地为每个位置分配不同的权重,关注全局信息。Transformer 架构:记住“编码器(自注意力+FFN)”和“解码器(掩码自注意力+编解码注意力+FFN)”的经典结构。原创 2026-02-19 15:17:54 · 907 阅读 · 0 评论 -
第13章 深度生成模型
模型核心思想生成样本质量训练难度适用场景VAE变分推断+自编码器中等(图像偏模糊)低(稳定易训练)无监督特征学习、数据生成、降维GAN对抗训练(生成器vs判别器)高(图像逼真)高(需调参,易崩溃)图像生成、风格迁移、超分辨率重建。原创 2026-02-18 16:38:21 · 831 阅读 · 0 评论 -
第12章 深度信念网络
证明了“深度结构+概率模型”的有效性,打破了早期神经网络只能做浅层学习的局限;提出的“分层预训练”策略,为后续深层神经网络(比如CNN、RNN)的训练提供了重要思路;作为生成模型,它展示了深度学习不仅能“做任务”,还能“理解数据”,为后来的生成对抗网络(GAN)、变分自编码器(VAE)奠定了基础。原创 2026-02-17 17:10:40 · 710 阅读 · 0 评论 -
第10章 模型独立的学习方式
集成学习:通过多模型组合降低方差,提升稳定性。自训练/协同训练:利用无标注数据降低标注成本。多任务学习:通过任务关联提升特征学习的通用性。迁移学习:利用源任务知识快速适应目标任务。终身学习:持续学习不遗忘,适应动态场景。元学习:学习“学习能力”,适应少样本新任务。这些方法在实际应用中非常灵活,常常可以结合使用(比如迁移学习+微调+集成学习),是解决复杂机器学习问题的重要工具。原创 2026-02-15 08:15:36 · 599 阅读 · 0 评论 -
第9章 深度学习的生成模型
维度判别模型生成模型学习目标条件概率Py∣xP(y|x)Py∣x边缘概率PxP(x)Px/联合概率PxyP(x,y)Pxy核心能力判断、分类、转换生成全新的真实样例数据利用主要依赖标注数据可利用无标注数据(核心优势)典型任务图像分类、文本翻译、问答AI绘画、语音合成、分子生成。原创 2026-02-14 10:29:31 · 661 阅读 · 0 评论 -
第8章 深度学习的优化方法与正则化
深度学习的优化不是单纯的“求解损失最小值”,而是在非凸、高维、有噪声的条件下,找到一个泛化能力好的参数解,是优化算法、训练技巧、正则化方法三者的协同作用,也是深度学习从“理论”到“实践”的核心桥梁。原创 2026-02-13 09:11:43 · 770 阅读 · 0 评论 -
第7章 注意力机制与Transformer
摘要:本章深入剖析注意力机制与Transformer的核心原理。首先分析CNN/RNN在处理序列数据时的固有局限(串行计算、长程依赖瓶颈),引出注意力机制的三大优势:直接建模任意位置依赖、全并行计算和自适应权重分配。重点解析基础注意力(Query-Key-Value框架)和自注意力机制的计算过程,并介绍位置编码的关键作用。Transformer通过多头自注意力+前馈网络的结构,完全摒弃CNN/RNN,实现高效并行建模长距离依赖,成为NLP等领域的核心框架。原创 2026-02-12 08:23:41 · 787 阅读 · 0 评论 -
第5章 卷积神经网络
卷积神经网络(CNN/ConvNet)是专门为处理网格结构数据(比如图像、语音序列)设计的深层前馈网络。它的核心优势是局部连接、权重共享、汇聚降维——既解决了全连接网络参数爆炸的问题,又能高效捕捉数据的局部特征(比如图像的边缘、纹理),还能保证一定的平移、缩放不变性(比如猫的图像不管放在画面左边还是右边,都能识别)。本章会从“卷积”这个核心运算入手,逐步拆解CNN的结构、工作原理、参数学习方法,再介绍经典模型和进阶卷积方式,帮你彻底搞懂CNN。卷积的本质是“滑动窗口加权求和”——用一个固定大小的“滤波器(卷原创 2026-02-10 17:00:20 · 915 阅读 · 0 评论 -
第4章 前馈神经网络
前馈神经网络是深度学习的“基石”,核心是“多层非线性转换+反向传播训练”,能拟合复杂数据规律,是后续卷积网络、Transformer等模型的基础。原创 2026-02-07 16:47:02 · 885 阅读 · 0 评论 -
第3章 线性模型
本章介绍了四种经典线性分类模型。Logistic回归通过Sigmoid函数将线性输出转换为概率,适用于二分类问题;Softmax回归是其多分类扩展,使用Softmax函数归一化概率。感知器是最简单的神经网络,采用错误驱动学习,但仅适用于线性可分数据。支持向量机(SVM)则通过最大化间隔寻找最优决策边界,提高泛化能力。这些模型的核心区别在于损失函数和优化方法的选择,为不同分类任务提供了基础解决方案。原创 2026-02-06 13:09:38 · 1000 阅读 · 0 评论 -
第2章 机器学习概述-02
机器学习的本质:从有限数据中学习泛化规律,核心三要素是“模型、学习准则、优化算法”;关键逻辑:数据→特征表示→模型训练(优化准则)→评价指标检验泛化能力;核心矛盾:模型复杂度与泛化能力的平衡(用正则化、交叉验证等方法解决);重要区分:监督(有标签)、无监督(无标签)、强化学习(互动奖励)的适用场景,以及传统特征学习与深度学习的差异(端到端vs人工设计)。原创 2026-02-06 12:28:36 · 946 阅读 · 0 评论 -
第2章 机器学习概述-01
模型是所有可能的映射函数的集合,核心是“假设空间”——我们认为数据的规律就藏在这个集合里。线性模型:最简单的模型,特征是线性组合(比如 甜度=0.3×颜色分 + 0.7×产地分 + 0.2),参数是权重(0.3、0.7)和偏置(0.2);非线性模型:特征经过非线性转换后再组合(比如 甜度=0.3×(颜色分)² + 0.7×log(产地分)),能捕捉更复杂的规律(比如“颜色特别黄的芒果甜度增长更快”)。线性回归的模型很简单:预测值 = 特征的线性组合 + 偏置,公式简化为:[ f(x;原创 2026-02-03 16:03:41 · 737 阅读 · 0 评论 -
第1章 绪论
深度学习的核心价值是“自动学习有效特征”,解决了传统机器学习中“特征工程”的痛点。它以神经网络为核心模型,通过端到端学习,避免了人工干预,在图像、语音、自然语言处理等领域取得了巨大成功。但深度学习也有局限:比如需要大量标注数据、可解释性差、鲁棒性有待提升等。未来的研究方向包括更高效的模型结构、更少的数据依赖、更好的可解释性等。如果想深入学习,还可以关注斯坦福大学的CS231n(计算机视觉)、CS224n(自然语言处理)等课程,以及ICLR、NeurIPS、ICML等顶级学术会议的最新成果。原创 2026-02-03 15:59:01 · 694 阅读 · 0 评论
分享