深度学习与机器学习
文章平均质量分 70
深度学习是机器学习的一种实现方式,但其实你研究深度学习首先要有机器学习的基础。
从流域到海域
此人不懒,但他除了干货什么都没有留下。
展开
-
CNN如何计算感受野大小
CNN有三个主要特征:局部连接,权值共享,输入/输出数据的结构化。在卷积神经网络中,由于卷积的局部连接性,输出特征图上的每个节点的取值,是由卷积核在输入特征图上对应的位置进行卷积操作而得到的,因此这个节点的取值会受到该卷积层的输入特征图,也就是上一层的输出特征图上某个局部区域的影响。感受野的定义是,对于某层输出特征图的某点,在卷积神经网络的原始输入数据上能影响到这个点的取值的区域。以二维卷积神经网络为例,如果网络的原始输入特征图的尺寸为Lw×LhL_w\times L_hLw×Lh,记网络第ii.原创 2021-11-21 13:48:15 · 106 阅读 · 0 评论 -
生成式模型与判别式模型
假设可观测到的集合为X,需要预测的变量集合为Y,其他变量集合为Z。生成式模型是对联合概率分布P(X,Y,Z)P(X,Y,Z)P(X,Y,Z)进行建模,在给定观测集合X的条件下,通过计算边缘分布来得到对变量集合Y的推断,即:P(Y∣X)=P(X,Y)P(X)=∑ZP(X,Y,Z)∑Y,ZP(Y,Z∣X)P(Y|X)=\frac{P(X,Y)}{P(X)}=\frac{\sum_ZP(X,Y,Z)}{\sum_{Y,Z}P(Y,Z|X)}P(Y∣X)=P(X)P(X,Y)=∑Y,ZP(Y,Z∣X)∑Z原创 2021-11-13 11:25:25 · 805 阅读 · 0 评论 -
KMeans算法
聚类是一种非监督学习方法,而K均值聚类(K-Means Clustering)是最基础和最常用的聚类算法。它的基本思想是:通过迭代方式寻找K的簇(Cluster)的一种划分方案,使得聚类结果对应的代价函数最小。特别的,代价函数可以定义为各个样本点到距离其所属簇中心点的误差的平方和:J(c,μ)=∑i=1M∣∣xi−μci∣∣J(c,\mu) = \sum_{i=1}^M||x_i-\mu_{c_i}||J(c,μ)=i=1∑M∣∣xi−μci∣∣其中xix_ixi代表第iii个样本,cic_原创 2021-11-09 00:00:57 · 233 阅读 · 0 评论 -
PCA基本原理
PCA旨在找到数据中的主成分,并利用这些主成分表征原始数据,从而达到降维的目的。PCA求解方法:对样本数据进行中心化处理求样本协方差矩阵对协方差矩阵进行特征分解,将特征值从大到小排列取特征值前ddd大对应的特征向量ω1,ω2,...,ωd\omega_1,\omega_2,...,\omega_dω1,ω2,...,ωd,通过以下映射将nnn维样本映射到ddd维xi′=[ω1Tx1ω2Tx2...ωddxd]x_i^{'}=\left[\begin{array}{cc} \o.原创 2021-11-08 22:01:34 · 119 阅读 · 0 评论 -
决策树剪枝算法:REP/PEP/CCP算法
一颗完全生长的决策树会面临一个严重的问题——过拟合,因此我们需要剪掉一些枝叶来提高决策树的泛化能力。即使不存在过拟合,如果样本数量和分类数量是一个海量的级别,也需要预剪枝,因为计算资源不足以支撑生成完整的决策树,这也是强化学习中蒙特·卡罗尔树搜索的局限性。决策树算法生成的一颗完整的决策树会非常的庞大,每个变量都被详细地考虑过。在每一个叶节点上,只要继续分支就会有信息增益的情况,不管信息增益有多大,都会进行分支操作。最终所达到的目的是决策树的叶节点所覆盖的训练样本都属于同一类。如果我们用这个决策树来对.原创 2021-11-07 19:19:26 · 581 阅读 · 0 评论 -
常用决策树算法
prerequiste:决策树基本思想决策树构建一个重要的步骤是选择最优划分属性,基于不同的判断标准可以衍生出不一样的方法。这篇博文介绍常用的三种决策树算法:ID3、C4.5、Cart,这三种算法的区别在于选择特征作为判断结点时的标准(数据纯度函数)不同。本文仅介绍理论,为节省篇幅没有举例,你可以在文末的参考文献中找到具体的例子。ID3算法ID3算法使用最大信息增益作为特征选择标准。信息熵表示信息的不确定度,假设数据DDD可以被分为kkk个类别,其中第iii个类被的数据在总数据的比率为pip_i原创 2021-11-07 17:26:59 · 1331 阅读 · 0 评论 -
决策树基本思想
输入:训练集D={(x1,y1),(x2,y2),...,(x3,y3)}D=\{(x_1,y_1), (x_2, y_2),...,(x_3,y_3)\}D={(x1,y1),(x2,y2),...,(x3,y3)},属性集A={a1,a2,...,an}A=\{a_1,a_2,...,a_n\}A={a1,a2,...,an}过程:抽象为函数TreeGenerate(D,A)注:最优划分属性即为能把最多结点分为一类的属性1. 生成根结点node2. if D中样本全部属于.原创 2021-11-03 22:27:02 · 640 阅读 · 0 评论 -
特征工程:归一化、特征组合、高维特征降解
特征工程归一化 (Normalization)归一化的目的是为了消除特征之间的量纲(scale)影响,比如一个特征值在1000左右的特征在参与计算时起的作用,肯定比特征值在10左右的特征大,特征值小产生的影响的会被淹没,因而将他们放缩到同一个量级才能正确分析结果。常用方法有两种:线性函数归一化(Min-Max Scaling):对原始数据进行线性变换,将结果映射到[0, 1]的范围,实现对原始数据的等比缩放。归一化公式为:Xnorm=X−XminXmax−XminX_{norm}=\fra原创 2021-10-19 22:01:25 · 168 阅读 · 0 评论 -
交叉熵损失函数及其与熵和KL散度的关系
Cross Entropy Error Function二分类L=1N∑iLi=1N∑i−[yilog(pi)]+(1−yi)log(1−log(pi))]L = \frac{1}{N}\sum_iL_i = \frac{1}{N}\sum_i-[y_ilog(p_i)]+(1-y_i)log(1-log(p_i))]L=N1∑iLi=N1∑i−[yilog(pi)]+(1−yi)log(1−log(pi))]多分类L=1N∑iLi=1N∑i−∑c=1myiclog(pic)L=\原创 2020-08-29 15:31:12 · 44 阅读 · 0 评论 -
Gated Recurrent Unit(GRU)
整理并翻译自吴恩达深度学习系列视频:序列模型第一周,有所详略。Gated Recurrent Unit(GRU)Gated Recurrent Unit(GRU), which is a modification to the RNN hidden layer that makes it much better at capturing long range connections an...原创 2019-01-16 21:52:34 · 3423 阅读 · 0 评论 -
循环神经网络模型
整理并翻译自吴恩达深度学习系列视频:序列模型第一周,有所详略。Recurrent Neural Network一个标准的循环神经网络如图所示,在网络的每一个时间步ttt,它接受前一层的激活函数值a<t−1>a^{<t-1>}a<t−1>和输入x原创 2019-01-16 20:35:13 · 897 阅读 · 0 评论 -
序列模型第二周作业2:Emojify!
来自吴恩达深度学习系列视频:序列模型第二周作业2:Emojify!。如果英文对你来说有困难,可以参照:【中文】【吴恩达课后编程作业】Course 5 - 序列模型 - 第二周作业 - 词向量的运算与Emoji生成器,参照对英文的翻译并不能说完全准确,请注意这点。完整的ipynb文件参见博主github:https://github.com/Hongze-Wang/Deep-Learning-...原创 2019-01-20 11:34:06 · 855 阅读 · 0 评论 -
序列模型第二周作业1:Operations on word vectors
来自吴恩达深度学习系列视频:序列模型第二周作业1:Operations on word vectors。如果英文对你来说有困难,可以参照:【中文】【吴恩达课后编程作业】Course 5 - 序列模型 - 第二周作业 - 词向量的运算与Emoji生成器,参照对英文的翻译并不能说完全准确,请注意这点。完整的ipynb文件参见博主github:https://github.com/Hongze-W...原创 2019-01-19 21:03:37 · 688 阅读 · 0 评论 -
序列模型第一周作业3: Improvise a Jazz Solo with an LSTM Network
Improvise a Jazz Solo with an LSTM NetworkWelcome to your final programming assignment of this week! In this notebook, you will implement a model that uses an LSTM to generate music. You will even be...原创 2019-01-18 10:51:57 · 852 阅读 · 0 评论 -
序列模型第一周作业2: Character level language model - Dinosaurus land
Character level language model - Dinosaurus landWelcome to Dinosaurus Island! 65 million years ago, dinosaurs existed, and in this assignment they are back. You are in charge of a special task. Leadi...原创 2019-01-17 21:12:33 · 1338 阅读 · 0 评论 -
序列模型第一周作业1: Building your Recurrent Neural Network - Step by Step
Building your Recurrent Neural Network - Step by StepWelcome to Course 5’s first assignment! In this assignment, you will implement your first Recurrent Neural Network in numpy.Recurrent Neural Netw...原创 2019-01-17 16:54:14 · 740 阅读 · 0 评论 -
卷积神经网络第四周作业2: Art Generation with Neural Style Transfer - v1
来自吴恩达深度学习系列视频:卷积神经网络第四周作业2: Art Generation with Neural Style Transfer - v1。如果英文阅读对你来说有障碍,可以参考中英】【吴恩达课后编程作业】Course 4 -卷积神经网络 - 第四周作业。参照对代码的注释并不完全正确,该作业中有一个很难发现的错误,我在下面注明了。预训练模型你可以在原论文官网 MatConvNet....原创 2018-12-31 14:01:35 · 888 阅读 · 1 评论 -
卷积神经网络第四周作业1 - Face Recognition for the Happy House - v1
来自吴恩达深度学习系列视频:卷积神经网络第四周作业part1 - Face Recognition for the Happy House - v1。如果阅读英文对你来说有困难,你可以参照:【中英】【吴恩达课后编程作业】Course 4 -卷积神经网络 - 第四周作业。参照对代码的解释并不完全正确,但你可以参考其对叙述部分的解释。完整的ipynb文件见博主的github:https://g...原创 2018-12-30 20:33:31 · 710 阅读 · 1 评论 -
卷积神经网络 第一周作业 Convolution+model+-+Application+-+v1
来自吴恩达深度学习系列视频,卷积神经网络 第一周作业 Convolution+model±+Application±+v1如果英文对你来说有困难,请参照:【中文】【吴恩达课后编程作业】Course 4 - 卷积神经网络 - 第一周作业 - 搭建卷积神经网络模型以及应用(1&2) 参照对代码的解释并不完全正确 请注意这点在本次作业中,你会在forward_propagation那部...原创 2018-12-18 17:01:09 · 1726 阅读 · 4 评论 -
人脸识别相关及其内部原理
整理并翻译自吴恩达深度学习视频,卷及神经网络第四章4.1-4.5,有所详略。人脸验证和人脸识别Verification与Recognition的差异:验证:输入图像,名字/ID输出输入的图像是否和输入的名字/ID是同一个人这是个1:1问题。识别:你有一个K个人的数据库获取一张图像作为输入如果它属于K个人之一,输出这张图像对应的ID(不属于任何一个,输出不能识别)这...原创 2018-12-28 20:35:08 · 711 阅读 · 0 评论 -
卷积神经网络 第一周作业 convolution+model+-+Step+by+Step+-+v1
Convolutional Neural Networks: Step by StepWelcome to Course 4’s first assignment! In this assignment, you will implement convolutional (CONV) and pooling (POOL) layers in numpy, including both forwa...原创 2018-12-17 20:59:07 · 1184 阅读 · 0 评论 -
卷积神经网络 第三周作业:Residual+Networks+-+v1
来自吴恩达深度学习系列视频 卷积神经网络 第三周作业:Residual+Networks±+v1,它使用Keras实现了著名ResNet50。中文翻译参照:【中文】【吴恩达课后编程作业】Course 4 - 卷积神经网络 - 第二周作业 - Keras入门与残差网络的搭建 参照对代码的解释并非完全准确,这点还请注意:完整的ipynb文件参见博主github:https://github.c...原创 2018-12-21 22:50:54 · 4503 阅读 · 1 评论 -
Long Short term memory unit(LSTM)
整理并翻译自吴恩达深度学习系列视频:序列模型第一周。Prerequisite:Gated Recurrent Unit(GRU)Long Short term memory unit(LSTM)GRU 和 LST的对比。LTSM计算公式如下:C~<t>=tanh(Wc[C<t−1>,x<t>]+bc...原创 2019-01-16 22:14:55 · 703 阅读 · 0 评论 -
Bidirectional RNN (BRNN)
整理并翻译自吴恩达深度学习系列视频:序列模型第一周,有所详略。Bidirectional RNN (BRNN)Prerequisite:Gated Recurrent Unit(GRU)Long Short term memory unit(LSTM)原创 2019-01-17 09:42:16 · 4649 阅读 · 0 评论 -
注意力机制(Attention Mechanism)
注意力机制起源于应用于NLP的RNN模型,但也在其他的领域有所应用。对注意力机制的理解也是算法面试经常提及的一道基础面试题,在这篇博文里我们汇总吴恩达深度学习视频序列模型3.7和3.8以及台大李宏毅教授对Attenion Mechanism以及相关参考文献对注意力机制给出详细的介绍的解释。注意力机制(Attention Mechanism)注意力机制是深度学习中一个非常重要的思想,在NLP...原创 2019-10-10 10:54:17 · 11800 阅读 · 0 评论 -
L1正则和L2正则的区别详解
正则化本身是一种参数范数惩罚,即权重衰减。L2参数正则化L2参数正则化策略通过向目标函数添加一个正则项Ω(θ=12∥w∥22)\Omega(\theta=\frac{1}{2}\Vert w\Vert_{2}^{2})Ω(θ=21∥w∥22),来使权重更加接近原点。其他学术圈称L2为岭回归或者Tikhonov正则。下图中w~\tilde{w}w~即为增加L2正则项之后所求的参数集,...原创 2019-09-26 22:20:31 · 5177 阅读 · 1 评论 -
协方差详解
今天面算法,面试官问协方差是什么,因为平时基本可能用不到,所以一脸懵逼,今天来温习一下什么是协方差。期望(Expection)函数f(x)关于某分布P(x)的期望或者期望值是指,当x是由P产生时,f作用于x时,f(x)的平均值。对于离散型随机变量,通过求和得到:Ex∼P[f(x)]=∑xP(x)f(x)\mathbb{E}_{x\sim P}[f(x)]=\sum_xP(x)f(x)Ex...原创 2019-09-26 21:28:06 · 12340 阅读 · 0 评论 -
牛顿法和梯度下降法的比较
牛顿法和梯度下降法大家都很熟悉了,所以这里就不细讲了,直接总结两者的区别,这也是面试算法可能会问到的问题。NameNote梯度下降一阶优化算法牛顿法二阶优化算法牛顿法:通过求解目标函数一阶导数为0时的参数集,间接地求目标函数达到最小值时的参数。当fff是一个正定二次函数时,牛顿法只需一次迭代就能直接跳到函数最小点,如果fff不是一个二次真正但也能局部...原创 2019-09-25 21:31:18 · 943 阅读 · 0 评论 -
深度学习中调参对模型容量的影响
参考Deep Learning 英文原版深度学习中文版原创 2019-07-03 15:56:22 · 556 阅读 · 0 评论 -
万能近似定理
universal approximation theorem*万能近似定理*(universal approximation theorem),是深度学习最根本的理论依据。它声明了在给定网络具有足够多的隐藏单元的条件下,配备一个线性输出层和一个带有任何“挤压”性质的激活函数(如logistic sigmoid激活函数)的隐藏层的前馈神经网络,能够以任何想要的误差量近似任何从一个有限维度的空间...原创 2019-06-10 19:46:27 · 8247 阅读 · 0 评论 -
Bagging (bootstrap aggregating) - 集成方法之一
Bagging(装袋法),bootstrap aggregating(自举汇聚法) 的简称,是一个通过组合多个模型来减少泛化误差的技术。其原理是单独训练数个不同的模型,然后让多个模型在测试集的输出上投票。这是一个在机器学习中普遍应用的被称作model averaging(模型平均) 的策略。使用这种策略的技术被称作ensemble methods(集成方法)。下面以一张图展示该方法的大致过程...原创 2019-06-15 14:13:33 · 2555 阅读 · 0 评论 -
为什么使用交叉熵作为损失函数?
如果概括性地回答这个问题,我们其实是希望得到最大似然(maximum likelihood),使得模型的预测分布与数据的实际分布尽可能相近。而最大化log似然等同于最小化负log似然,最小化负log似然等价于最小化KL散度(相对熵),KL散度里包含有只与数据集相关而与模型无关的logp^datalog\hat{p}_{data}logp^data,这一部分对每个特定数据集来说是一个定值,为了简...原创 2019-06-08 15:47:16 · 2254 阅读 · 0 评论 -
Decision Tree (决策树算法)
内容总结自花书《deep learning》Chapter5,由英文版翻译而来,英文版可以在其官网免费查阅。同时博主也发明中文翻译版的诸多错误和不细致的地方,建议阅读英文版。Decision Tree (决策树算法)与k-nearest neighbors相同,决策树算法及其变种是另一种将输入空间划分成区域,并且每个区域有单独参数的算法。如上图所示,决策树的每一个结点都和输入空间的一个...原创 2019-06-02 17:14:23 · 845 阅读 · 0 评论 -
k-Nearest Neighbors(k近邻算法)
内容总结自花书《deep learning》Chapter5,由英文版翻译而来,英文版可以在其官网免费查阅。同时博主也发明中文翻译版的诸多错误和不细致的地方,建议阅读英文版。k-Nearst Neighbors(k近邻算法近邻回归算法(nearest neighbor regression)模型简单地存储来自训练集的X\pmb{X}XXX和y\pmb{y}yyy,当被要求分类一个测试...原创 2019-06-02 16:58:05 · 5051 阅读 · 0 评论 -
Support Vector Machine(支持向量机)-机器学习基础
内容总结自自花书《deep learning》Chapter 5,由英文版翻译而来。英文版官网可以免费查阅:http://www.deeplearningbook.org/支持向量机(Support Vector Machine,SVM)是监督学习中一种极具影响力的方法。这种模型与logistic regression相同,都是由线性函数w⊤x+b\pmb{w}^\top \pmb{x}+b...原创 2019-06-02 14:53:45 · 749 阅读 · 0 评论 -
最大似然估计(Maximum Likelihood Estimation) - 机器学习基础
内容总结自自花书《deep learning》Chapter 5.5,由英文版翻译而来。英文版官网可以免费查阅:http://www.deeplearningbook.org/评估器(estimators)从何而来?相较于猜测某个函数可能产生一个好的估计器,然后再分析其偏差和方差,我们更愿意拥有一些原则,可以用来推导针对不同模型的好的估计器的特定函数。最常用的这种原则就是最大似然原则(ma...原创 2019-06-01 16:22:29 · 4945 阅读 · 1 评论 -
频率派统计(frequentist statistics)和贝叶斯统计(Bayesian Statistics) - 机器学习基础
内容总结自自花书《deep learning》Chapter 5,由英文版翻译而来。英文版官网可以免费查阅:http://www.deeplearningbook.org/频率派统计(frequentist statistics)在频率派估计的观点下,真实参数集θ\pmb{\theta}θθθ是固定的但未知,我们使用作为数据集函数的随机变量θ^\hat{\pmb{\theta}}θθθ^作...原创 2019-06-01 15:39:27 · 3340 阅读 · 0 评论 -
深度学习中的范数
范数简述我们知道距离的定义是一个宽泛的概念,只要满足非负、自反、三角不等式就可以称之为距离。范数是一种强化了的距离概念,它在定义上比距离多了一条数乘的运算法则。有时候为了便于理解,我们可以把范数当作距离来理解。即表示一种到坐标原点距离的度量。例如:二阶范数(也称L2范数)是最常见的范数,即欧几里得距离。LpL^pLpnorm∣∣x∣∣p=(∑i(xi)p)1p||x||_p=(\sum...原创 2019-05-14 21:54:51 · 1907 阅读 · 0 评论 -
ResNet50及其Keras实现
ResNet = Residual Network所有非残差网络都被称为平凡网络,这是一个原论文提出来的相对而言的概念。残差网络是2015年由著名的Researcher Kaiming He(何凯明)提出的深度卷积网络,一经出世,便在ImageNet中斩获图像分类、检测、定位三项的冠军。 残差网络更容易优化,并且能够通过增加相当的深度来提高准确率。核心是解决了增加深度带来的副作用(退化问题)...原创 2018-12-21 22:25:38 · 21160 阅读 · 9 评论 -
F1 - Score\Precision\Recall The Single number evaluation metric(单一评估标准)
以下指标可以作为衡量分类问题的准确度的标准PrecisionPrecision(%)=True positivenumber of predicted positive∗100=True positiveTrue positive+False&a原创 2018-12-10 20:50:59 · 310 阅读 · 0 评论