![](https://img-blog.csdnimg.cn/20210410092239407.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
深度学习(花书)——学习笔记
文章平均质量分 82
学习笔记
努力呀。。。
这个作者很懒,什么都没留下…
展开
-
花书笔记:第07章 深度学习中的正则化
花书笔记:第07章 深度学习中的正则化7.1 参数范数惩罚参数范数惩罚 Ω(θ)\Omega(\theta)Ω(θ)α∈[0,∞)\alpha \in [0,\infty)α∈[0,∞) 是衡量惩罚项 Ω\OmegaΩ 和 目标函数 JJJ 相对贡献的超参数,α\alphaα 越大,对应正则化惩罚越大。训练正则化后的目标函数 J~\tilde JJ~ 会同时减小训练集的误差 和 在某些衡量标准下参数 θ\pmb \thetaθθθ (或参数子集) 的规模。神经网络中的参数包括权重 w\pm原创 2021-09-27 23:54:49 · 209 阅读 · 0 评论 -
花书笔记:第06章 深度前馈网络
花书笔记:第06章 深度前馈网络深度前馈网络 也叫前馈神经网络、多层感知机深度前馈网络的目标:定义一个映射 y=f(x;θ)\pmb y=f(\pmb x;\pmb \theta)yyy=f(xxx;θθθ) ,并学习参数 θ\pmb \thetaθθθ ,使它能够得到最佳近似。例如分类任务,将输入 x\pmb xxxx 映射到一个类别 yyy 。前馈神经网络组成结构:输入层 + 隐藏层 + 输出层6.1 实例:学习 XOR 函数问题描述1) XOR 问题即,异或问原创 2021-08-04 11:07:00 · 388 阅读 · 0 评论 -
花书笔记:第05章 机器学习基础
花书笔记:第 05 章 机器学习基础5.1 机器学习算法机器学习算法定义: 对于某类任务 TTT ,和性能度量 PPP ,一个计算机程序被认为可以从经验 EEE 中学习是指,通过经验 EEE 改进后,它在任务 TTT 由性能度量 PPP 衡量的性能有所提升。5.1.1 任务TTT机器学习的任务通常是一些人为设计和使用确定性程序很难解决的问题。通常有以下几类任务。分类学习算法返回一个函数 f:Rn→{1,⋅⋅⋅,k}\pmb{f:\mathbb{R}^n→ \{1,···,k\}}f:Rn原创 2021-07-26 09:58:42 · 371 阅读 · 0 评论 -
花书笔记:第04章 数值计算
花书笔记:第04章 数值计算 数值计算通常通过 迭代更新 解的 估计值 来解决数学问题。4.1 上溢和下溢计算机只能近似的表示一个实数,因为存在误差,所以一些理论上成功的算法,实际上却失效了,因此算法在设计过程中需要考虑误差的累积。下溢:当接近 0 的数字被四舍五入为 0 时,造成下溢。上溢:当大数量级的数被近似为 ∞\infty∞ 或 −∞-\infty−∞ 时,造成上溢。例: 如何防止 softmaxsoftmaxsoftmax 函数上下溢softmax(x)i=exp(原创 2021-07-03 18:09:05 · 73 阅读 · 0 评论 -
花书笔记:第03章 概率与信息论
花书笔记:第03章 概率与信息论3.1 随机变量随机变量是可以随机取不同值的变量,分为离散随机变量和连续随机变量:离散型: 拥有有限或无限多的可数状态。如:整数,被命名的状态值。连续性: 实数值。3.2 概率分布定义: 用来描述随机变量取到某个值(状态)的可能性的大小。概率质量函数(PMF):离散型变量的概率分布。用P(x)∈[0,1]P(x)∈[0,1]P(x)∈[0,1]表示 x=xxx 的概率。用P(x,y)P(x,y)P(x,y) 表示 x = xxx, y = yy原创 2021-06-26 11:17:42 · 118 阅读 · 0 评论 -
花书笔记:第2章线性代数
花书笔记:第2章线性代数2.1 基本概念标量 一个单独的数向量 一列数矩阵 一个 m×n 的二位数组广播 矩阵A与向量b相加,隐式的将向量b复制到每一行与矩阵A进行相加2.2 矩阵和向量相乘矩阵的乘积 $ C_(m×p)=A_(m×n) B_(n×p)$ 矩阵的行向量和列向量对应元素相乘再相加(点积)Hadamard乘积 矩阵的对应元素相乘点积 两个相同维数的向量对应元素相乘再相加2.3 单位矩阵和逆矩阵单位矩阵 对角线元素全为1,其余元素都为0的方阵记作E逆矩阵 与原矩阵原创 2021-05-29 08:07:29 · 493 阅读 · 1 评论 -
花书笔记:第1章 引言
花书笔记:第1章 引言1.1 关于人工智能的一些探讨人工智能的挑战:解决哪些对人类来说很容易执行、但很难形式化描述的任务。如识别图像中的人脸。机器学习算法的性能很大程度上依赖于给定数据的表示(也可以理解为特征集),例如对于环形数据,极坐标系比笛卡尔坐标系更容易用一条线来划分类别。深度学习通过多级简单表示来表达复杂表示,解决了表示学习中的核心问题。1.2 关于深度学习的一些简述随机梯度下降算法 仍是深度学习训练权重的主要算法。分布式表示 系统的每一个输入都应该由多个特征表示,并且每原创 2021-05-29 08:04:41 · 92 阅读 · 0 评论