机器学习实战书籍
11
王蒟蒻
蒟蒻
展开
-
ANN总结
课后习题原创 2021-09-02 21:03:00 · 369 阅读 · 0 评论 -
深度神经网络训练技巧
一些问题将偏置项初始化为0可以吗可以设置为零,有些人喜欢像初始化权重一样处理偏差项,这样也是可以的。没有太大的区别。列举SELU激活函数相比ReLU的三个优点可以使用负值,所以相比使用RELU激活方程,某一给定层的神经元输出平均值,理论上更容易接近于零。这样有助于缓解梯度消失问题。他总是有一个非零的导数,可以避免影响RELU单元的单元消失问题。当条件合适时,SELU激活函数可确保模型进行自归一化,从而解决了梯度爆炸与梯度消失问题。在哪种情况下,你想使用以下每个激活函数:SELU、le.原创 2021-09-02 20:47:24 · 545 阅读 · 0 评论 -
卷积神经网络
一些问题与用于图像分类的全连接的DNN相比,CNN有什么优势?因为连续的层仅部分连接,并且由于其大量复用权重,所以CNN参数比全连接的DNN少得多,这使得其训练速度快的多,降低了过拟合的风险,并且需要的训练数据也少的多。CNN学会了可以检测到特定特征的内核后,并可以在图像中的任何位置检测到该特征。由于图像通常具有非常重复的特征,因此对于CNN而言,使用较少的训练实例,对比dnn更好的泛化图像处理任务。CNN中,较低的层通常在图像的较小区域中识别特征,而较高的层将较低的层的特征组合为较大的特征。原创 2021-09-02 20:47:00 · 169 阅读 · 0 评论 -
神经网络中的Epoch、Iteration、Batchsize浅析
概念理解这个帖子讲得很清楚传送门为什么要有这些东西只有在数据很庞大的时候(在机器学习中,数据一般情况下都会很大),我们才需要使用epochs,batch size,iteration这些术语,在这种情况下,一次性将数据输入计算机是不可能的。因此,为了解决这个问题,我们需要把数据分成小块,一块一块的传递给计算机,在每一步的末端更新神经网络的权重,拟合给定的数据。(如之前学习的批量梯度下降、随机梯度下降、小批量梯度下降所示)考虑由三层三个卷积层组成的CNN,每个卷积层具有33内核,步幅为2和same原创 2021-08-06 20:08:45 · 595 阅读 · 0 评论 -
K-fold划分数据进行训练有k个训练模型,那最终选取哪个模型?
问题: K-fold划分数据进行训练有k个训练模型,那最终选取哪个模型?还有为什么要计算所有模型的平均误差?这些验证的目的是为了调参,最终选取的模型是通过调好的参数在所有数据上训练得到的模型我们进行k-fold是将数据划分为k折,每次取k-1的数据训练然后在剩下的一份验证打分,这样经过k轮后就得到一个模型的k个得分(注意“模型”只有一个,当你确定具体算法和参数组合以后就确定了模型,而模型拟合数据得到的是学习器(比如分类器,你可以理解为模型的具体实例)),那为什么要取平均呢,其实在前面说过单独取部分数据原创 2021-07-19 20:53:07 · 1955 阅读 · 0 评论 -
一张图总结机器学习降维算法
一些问题减少数据集维度的主要动机是什么?主要缺点是什么?加速训练算法、将数据可视化、节省空间。丢失部分信息、为机器学习流水线增添了些许复杂度、转化后的特征往往难以理解。维度的诅咒是什么?许多在低维空间中不存在的问题,在高维空间中发生。在机器学习领域,一个常见的现象是随机抽样的高维向量通常非常稀疏,提升了过拟合的风险,同时也使得在没有充足训练数据的情况下,要识别数据中的模式非常困难。一旦降低了数据集的维度,是否可以你操作?如果可以,怎么做?如果不能,为什么?几乎不可能再将操作完美的逆.原创 2021-07-04 16:39:43 · 721 阅读 · 3 评论 -
一张图看懂集成学习和随机森林
一些问题是否可以通过在多个服务器上并行来加速bagging集成的训练?pasting集成呢?boosting集成呢?随机森林或stacking 集成呢?对于bagging集成来说,将其分布在多个服务器上能够有效加速训练过程,因为集成中的每个预测器都是独立工作的。对pasting 集成和随机森林也一样。但是boosting集成的每个预测器都是基于其前序的结果,因此训练过程必须是有序的,将其分布在多个服务器上毫无意义。对于stacking集成来说,某个指定层的预测器之间彼此独立,可以在多台服务器上并行训.原创 2021-07-03 15:04:06 · 479 阅读 · 0 评论 -
一张图看懂决策树
一些问题如果训练集有100万个实例,训练决策树大致的深度是多少?通常来说,二元决策树训练到最后大体都是平衡的,如果不加以限制,最后平均每个叶节点一个实例。因此,如果训练集包含100万个实例,那么决策树的深度为20层。(实际上会更多一些,因为决策树通常不可能完美平衡。)通常来说,子节点的基尼不纯度是高于还是低于其父节点?是通常更高/更低?还是永远更高/更低?一个节点的基尼不纯度通常比其父结点低。CART算法分类每个节点的方法,就是使其子节点的基尼不纯度的加权之和最小。但是,如果一个子节点的不纯.原创 2021-07-02 22:21:03 · 2385 阅读 · 2 评论 -
一张图看懂支持向量机
一些问题支持向量机的基本思想是什么?支持向量机的基本思想拟合类别之间可能的最宽的街道。换言之,他的目的是使决策边界之间的间隔最大化,该决策边界分隔两个类别和训练实例。SVM执行软间隔分类时,实际上是在完美分割两个类和拥有尽可能最宽的街道之间寻找折中方法(也就是允许少数实例最终还是落在街道上。)还有一个关键点是在训练非线性数据集时,记得使用核函数。什么是支持向量?支持向量机的训练完成后,位于街道之上的实例被称为支持向量,也包括处于边界上的实例。决策边界完全由支持向量决定。非支持向量的实例(也就.原创 2021-07-01 21:09:34 · 604 阅读 · 0 评论 -
一张图看懂训练模型
传送门一些问题如果你让他们运行足够长的时间,是否所有的梯度下降算法都能得出相同的模型?如果优化问题是凸的,并且假设学习率不是太高,那么所有梯度下降算法都将接近全局最优,并最终产生很相似的模型。除非逐步降低学习率,否则随机梯度下降和小批量梯度下降将永远不会真正收敛。相反,他们会一直围绕全局最优值来回跳跃。这意味着,即使你让他们运行很长的时间,这些梯度下降算法也会产生略微不同的模型。假设您使用批量梯度下降,并在每个轮次绘制验证误差。如果你发现验证错误,持续上升,可能是什么情况,你该如何解决?如.原创 2021-06-29 16:23:34 · 1275 阅读 · 0 评论 -
一张图看懂机器学习分类
原创 2021-06-28 12:41:49 · 525 阅读 · 0 评论 -
一张图总结一个机器学习项目的完整流程
原创 2021-06-26 22:22:22 · 974 阅读 · 1 评论 -
一张图总结机器学习概览
机器学习中使用正则化来防止过拟合是什么原理?传送门练习题最常见的两种监督学习任务是什么?回归和分类。你能举出四种常见的无监督学习任务吗?聚类可视化。降维关联规则学习。要将顾客分成多个组,你会使用什么类型的算法?如果你不知道如何定义组,则可以使用聚类算法将顾客划分为相似客户集群。但是如果你知道你想要拥有哪些组,那么可以将每个组的许多实例提供给分类算法,并将所有客户分类到这些组中。什么是核外学习?所以处理无法容纳在计算机内存中的大量数据。核外学习算法将数据分成小批量,并.原创 2021-06-26 11:44:03 · 421 阅读 · 0 评论
分享