机器学习
田问渠Carlnait
这个作者很懒,什么都没留下…
展开
-
梯度下降算法原理及在线性回归中的代码实现
梯度下降算法作为一种最优化的算法,简单来说就是沿着梯度下降的方向寻求一个函数的最小值。有关梯度下降的原理,推荐一位作者的介绍,可以说很详细,作者从简单的概念入手,到梯度下降的详细解释值得参考:梯度下降(Gradient Descent)小结;就目前梯度下降算法在机器学习中各种算法参考:一文看懂常用的梯度下降算法。本文主要把批量梯度下降和随机梯度下降算法在线性回归中的应用用代码的形式展示出来,供初学...原创 2018-04-16 10:05:56 · 1480 阅读 · 0 评论 -
泛化误差、bars、variance
泛化误差 = 偏差的平方 + 方差 + 噪声偏差度量了真实数据与预测数据的偏离程度,刻画了学习算法本身的拟合能力方差度量了同样大小的训练集的变动所导致的学习性能的变化,刻画了数据扰动所带来的影响;噪声表达了当前任务下任何学习算法所能达到的期望泛化下界,刻画了问题本身的难度 ...原创 2018-09-06 21:59:38 · 736 阅读 · 0 评论 -
KNN最近邻分类算法的简单过程
1.计算测试样本点到所有训练样本点的距离,然后将所有的距离排序;2.选取K个最小距离的样本点,依据K个样本点的标签进行投票分类。原创 2018-09-06 21:42:39 · 1263 阅读 · 0 评论 -
boost中为什么随着T(次数)的增加,最终的函数在训练数据上的错误率越来越小?
首先给出训练错误率的upper-bound,然后证明这个upper-bound恰好等于ZT+1/N,之后往证T↑,ZT+1↓。原创 2018-09-02 22:35:35 · 195 阅读 · 0 评论 -
拉普拉斯矩阵\映射\聚类
拉普拉斯矩阵、映射、距离转载 2018-08-23 15:40:58 · 381 阅读 · 0 评论 -
为什么Softmax的输出可以用来估计后验概率?
信息论学科中有一个 Maximum Entropy(最大熵)的概念,也可以推导出Softmax。简单说信息论中定义了一个最大熵。指数簇分布的最大熵等价于其指数形式的最大似然界。二项式的最大熵解等价于二项式指数形式(sigmoid)的最大似然,多项式分布的最大熵等价于多项式分布指数形式(softmax)的最大似然,因此为什么用sigmoid函数,那是因为指数簇分布最大熵的特性的必然性。假设分布求解最...原创 2018-08-14 16:23:46 · 1913 阅读 · 0 评论 -
Optical Character Recognation(OCR) 光学字符识别
OCR是指电子设备检查纸上打印的字符,通过检测暗,亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。OCR广泛应用于银行卡号识别、身份证号识别、快递单号识别、扫描文档字符识别,验证码识别、文本电子化等场景。OCR涉及计算机视觉、模式识别、机器学习和计算机网络等方面知识。...原创 2018-05-18 21:20:30 · 343 阅读 · 0 评论 -
最优化算法之共轭梯度算法学习笔记
学习共轭梯度算法,最好是在了解了梯度下降和(拟)牛顿法之后,再学习,省事而且三种方法对比记忆,效果会更好,废话不多说,进入正题。 链接抛上: 梯度下降算法原理及其在线性回归中的应用 最优化算法之牛顿和拟牛顿算法学习 对于共轭梯度算法的学习,也是讲究基础性的学习,包括共轭的概念,共轭梯度的思想,以及推到等,网上资源很多,我找了一个非常好的讲解,参考:最优化学习笔记(四)...原创 2018-04-24 14:27:06 · 2070 阅读 · 0 评论 -
最优化算法之牛顿法与拟牛顿法学习
关于这块的学习,我找到了一位大神从牛顿到拟牛顿详细的公式讲解,看了确实很深刻,后边又对DFP, BFGS,和L-BFGS算法进行解释,可以说对于深入了解牛顿优化算法很有帮助,现将相关连接贴出,供我们参考:牛顿法拟牛顿法DFP算法BFGS算法L-BFGS算法...转载 2018-04-16 17:07:21 · 404 阅读 · 0 评论 -
VC维
VC维是模型的复杂程度,模型假设空间越大,VC维越高。某种程度上,VC维给机器学习可学性提供了理论支撑1. 测试集合的loss是否和训练集合的loss接近?VC维越小,理论越接近,越不容易overfitting。2. 训练集合的loss是否足够小?VC维越大,loss理论越小,越不容易underfitting。我们对模型添加的正则项可以对模型复杂度(VC维)进行控制,平衡这...转载 2018-09-07 09:41:25 · 553 阅读 · 0 评论