机器学习 - 深度学习
文章平均质量分 98
羊肉串串魅力无穷
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
反向传播
链式法则反向传播是利用链式法则递归计算表达式的梯度的方法。对于乘法函数 f(x,y)=xyf(x,y)=xyf(x,y)=xy 求偏导数:f(x,y)=xy→dfdx=ydfdy=x\displaystyle f(x,y)=xy \to \frac {df}{dx}=y \quad \frac {df}{dy}=xf(x,y)=xy→dxdf=ydydf=x对于加法函数...原创 2021-02-25 19:10:56 · 472 阅读 · 0 评论 -
评估指标:混淆矩阵、PR、mAP、ROC、AUC
TP、TN、FP、FNTP,即 True Positive,预测为正样本,实际也为正样本的特征数。TN,即 True Negative,预测为负样本,实际也为负样本的特征数。FP,即 False Positive,预测为正样本,实际为负样本的特征数。FN,即 False Negative,预测为负样本,实际为正样本的特征数。Accuracy 和 Error rate...原创 2018-12-18 19:21:34 · 4578 阅读 · 2 评论 -
梯度下降优化算法
文章目录梯度下降算法MomentumNAGAdagradAdadeltaRMSpropAdam算法的选择 原文:An overview of gradient descent optimization algorithms梯度下降算法梯度下降算法(Gradient Descent Optimization)是神经网络模型训练最常用的优化算法。详见:梯度下降梯度下降算法的原理:目...翻译 2018-12-18 19:19:56 · 759 阅读 · 0 评论 -
线性回归 linear regression
文章目录一元线性回归函数模型代价函数回归一词,指的是我们根据之前的数据,预测出一个准确的输出值。一元线性回归函数模型一元线性回归 (linear regression) 的函数模型:hθ(x)=θ0+θ1∗xh_{θ}(x) = θ_0 + θ_1 * xhθ(x)=θ0+θ1∗xxxx:表示输入变量,表示输入的特征。yyy:表示目标变量,也就是预测结果。(x,y...原创 2018-12-12 13:28:39 · 324 阅读 · 0 评论 -
特征缩放 feature scaling
“标准化” 和 “归一化” 这两个中文词要指代四种Feature scaling(特征缩放)方法。样本不同特征的取值范围如果不一样,可能导致迭代很慢,为了减少特征取值的影响,可以对特征数据进行缩放,加速算法的收敛。Rescaling归一化,一般是将数据映射到指定的范围,用于去除不同维度数据的量纲以及量纲单位。常见的映射范围有 [0, 1] 和 [-1, 1] 。Min-Max Normal...原创 2018-12-12 12:28:43 · 548 阅读 · 0 评论 -
学习速率 learning rate
学习速率的选取策略运用梯度下降算法进行优化时,权重的更新规则中,在梯度项前会乘以一个系数,这个系数就叫学习速率 ααα :如果学习速率太小,则会使收敛过慢。如果学习速率太大,则会导致代价函数振荡,迭代过快,梯度下降法可能会越过最低点,甚至可能发散。 学习速率的取值取决于数据样本,可以多取一些值,从大到小,分别运行算法,看看迭代效果,如果损失函数在变小,说明取值有效,否...原创 2018-12-11 22:17:06 · 9902 阅读 · 0 评论 -
矩阵运算
文章目录NumPy 中的数组和矩阵创建数组矩阵加法 / 减法矩阵数乘矩阵转置矩阵乘法单位矩阵 (Identity matrix)逆矩阵(matrix inversion)NumPy 中的数组和矩阵NumPy 是一个关于矩阵运算的库,包含两种基本的数据类型:数组(array )和矩阵(matrix)。matrix 是 array 的一个小的分支,所以 matrix 拥有 array 的所有...原创 2018-12-11 08:44:58 · 754 阅读 · 0 评论 -
分类评分函数 score function
从图像到标签分值的映射一个线性映射:f(xi,W,b)=Wxi+b\displaystyle f(x_i,W,b)=Wx_i+bf(xi,W,b)=Wxi+b其中,参数 WWW 为权重(weights),bbb 称为偏差向量(bias vector)一个将图像映射到分类分值的例子:为了便于可视化,假设图像只有4个像素值,有3个分类。首先将图像像素拉伸为一个列向量,与 WWW...原创 2018-12-14 14:36:31 · 13444 阅读 · 1 评论 -
权重初始化
在开始训练网络之前,还需要初始化网络的参数。错误:全零初始化。让我们从应该避免的错误开始。在训练完毕后,虽然不知道网络中每个权重的最终值应该是多少,但如果数据经过了恰当的归一化的话,就可以假设所有权重数值中大约一半为正数,一半为负数。这样,一个听起来蛮合理的想法就是把这些权重的初始值都设为0吧,因为在期望上来说0是最合理的猜测。这个做法错误的!因为如果网络中的每个神经元都计算出同样的输出,然后它...原创 2018-12-13 18:01:10 · 1178 阅读 · 0 评论 -
偏差、方差、欠拟合、过拟合、学习曲线
欠拟合 under fitting 欠拟合(under fitting),这个问题的另一个术语叫做 高偏差(High bias)。这两种说法大致相似,意思是它没有很好地拟合训练数据。过拟合 over fitting 过度拟合(over fitting),另一个描述该问题的术语是 高方差(High variance)。过拟合的问题经常会在模型过度复杂或训练数据较少...原创 2018-12-13 13:06:41 · 1579 阅读 · 0 评论 -
逻辑回归 logistic regression
虽然名字里有回归,但实际上,逻辑回归算法是一种分类算法。文章目录假设函数决策边界逻辑回归的代价函数简化代价函数以及梯度下降高级优化优点缺点一对多分类问题正规化欠拟合过拟合解决过拟合问题正规化优化的目标假设函数逻辑回归的假设函数表达式:hθ(x)=g(θTx)h_{\theta}(x) = g(\theta^{T}x)hθ(x)=g(θTx)其中g函数的表达式为:g(z)=11+e−z...原创 2018-12-13 12:37:21 · 1753 阅读 · 0 评论 -
数据集划分
使用数据集时,一般将其分为三段:训练集、验证集、测试集。测试集决不能使用测试集来进行调优,会造成算法对测试集过拟合。应该把测试集看做非常珍贵的资源,不到最后一步,绝不使用它。验证集由于测试数据集只使用一次,所以,从训练集中取出一部分数据作为验证集(validation set)。验证集其实就是作为假的测试集来调优。交叉验证有时候,训练集数量较小(因此验证集的数量更小),人们...原创 2018-12-13 11:43:29 · 2257 阅读 · 0 评论 -
正则化方法:数据增强、regularization、dropout
正则化主要用于避免过拟合的产生和减少网络误差,选择经验风险与模型复杂度同时较小的模型。正则化项正则化一般具有如下形式:J(w,b)=1m∑i=1mL(f(x),y)+λR(f)J(w,b)= \frac{1}{m} \sum_{i=1}^{m}L(f(x),y)+\lambda R(f)J(w,b)=m1i=1∑mL(f(x),y)+λR(f)其中:第 1 项是经验风险,第 2 ...原创 2018-12-12 22:49:22 · 7663 阅读 · 0 评论 -
梯度下降 gradient descent
文章目录导数偏导数方向导数梯度梯度下降算法 (Gradient Descent)导数导数反映的是函数 f(x)f(x)f(x) 在 xxx 轴上某一点处沿着 xxx 轴正方向的变化率/变化趋势。 f′(x0)=limΔx→0ΔyΔx=limΔx→0f(x0+Δx)−f(x0)Δxf'(x_0)=\lim_{\Delta x \to 0}\frac{\Delta ...原创 2018-12-12 19:39:05 · 742 阅读 · 0 评论 -
激活函数 activation function
激活函数 activation function激活函数的角色是引入非线性(non-linearity),否则不管网络有多深,整个网络都可以直接替换为一个相应的仿射变换(affine transformation),即线性变换(linear transformation),比如旋转、伸缩、偏斜、平移(translation)。例如,在二维特征空间上,蓝线表示负面情形 y=0y=0y=0,绿线表...原创 2018-12-03 15:14:42 · 1316 阅读 · 2 评论 -
池化层 pool
池化层 pool池化层,可以降低数据体的空间尺寸,这样的话就能减少网络中参数的数量,使得计算资源耗费变少,也能有效控制过拟合。最常见的形式是池化层使用尺寸 2×22 \times 22×2 的滤波器,以步长为 222 来对每个深度切片进行降采样,将其中 75%75\%75% 的激活信息都丢掉。平均池化历史上比较常用,但是现在已经很少使用了,因为实践证明,最大池化(MAX操作)的效果比平均池化...原创 2018-12-03 12:26:09 · 2557 阅读 · 0 评论 -
卷积层 convolutional networks
卷积层 convolutional networks卷积层的滤波器,即卷积核,假设其尺寸是 5x5x35x5x35x5x3(宽高都是5像素,深度是3是因为图像应为颜色通道,所以有3的深度)。在前向传播的时候,让每个滤波器都在输入数据的宽度和高度上滑动(更精确地说是卷积),然后计算整个滤波器和输入数据任一处的内积。当滤波器沿着输入数据的宽度和高度滑过后,会生成一个2维的激活图(activation...原创 2018-12-03 12:06:20 · 691 阅读 · 0 评论
分享