机器学习算法
文章平均质量分 95
我对算法一无所知
人生处处是捷径,不绕远儿就是捷径。
展开
-
为什么交叉熵损失函数可以用作逻辑回归的损失函数?
什么是熵?什么是KL散度?什么是交叉熵?原创 2020-10-27 21:04:15 · 969 阅读 · 0 评论 -
深度学习中的batch,iteration,epoch复习总结
这三个概念是在深度学习的优化中提到的,也就是BP。batch的概念就是一次训练所用到的数据,当batchsize=1,就类似于梯度下降中的SGD,称为online learning;当batchsize小于整体训练集的数量时成为mini-batch learning;当batchsize等于整体训练集的数量时,称为batch learning。online learning的优点是下降很快,缺点是很难在最优点处收敛,通常会在接近最优点处来回震荡。batch learning的缺点是下降太慢。mini-b原创 2020-10-27 20:36:35 · 532 阅读 · 0 评论 -
Bagging与Boosting的区别与联系
1 Bagging与Boosting的区别与联系Baggging 和Boosting都是模型融合的方法,可以将弱分类器融合之后形成一个强分类器,而且融合之后的效果会比最好的弱分类器更好。1.1 Bagging介绍用抽样的方式从原始样本中进行有放回的多次抽样(或者是抽特征),这种方法叫做Bootstraping,抽取k次每次抽取n个样本,这样就生成了k个样本容量为n的数据集。原始数据集中的样本可能是多次被抽到也可能是没有被抽到。 每次使用一个数据即选练得到一个模型,这样k个数据集就可以得到k个模原创 2020-08-30 21:55:09 · 24108 阅读 · 3 评论 -
决策树:ID3和C4.5
1 决策树简介决策树是一种分类算法,是通过对数据的处理,利用归纳算法,生成一些列规则,类似于if-else,然后根据这些规则对新的数据做决策。本质上就是学习规则,在利用规则做分类的过程。具体来说,就是首先根据数据的特征,决定每个树的节点使用哪一个特征做为分类依据,以及使用这个特征的哪个指作为分类界限,这就是一棵树的构造过程。决策树的优点:推理过程容易理解,决策过程可以表示成if-else 推理过程完全依赖于属性变量的取值特点 可自动忽略目标变量没有贡献 的属性变量,也为判断属性变量的重要性、原创 2020-08-30 14:54:28 · 562 阅读 · 0 评论 -
SVM笔记(二)拉格朗日对偶、KTT条件、软间隔SVM
上一篇:SVM笔记(一)上一篇写到讲硬间隔的SVM转化为凸二次规划问题,也就是QP问题,之后可以是用现成的软件求解QP问题。但是如果样本数量大和维度比较高,会导致问题求解困难或不可解,因此引入了拉格朗日乘子来脱掉原问题的约束条件,然后根据原问题和对偶问题是强对偶关系,二者完全等价,因此转换为它得对偶问题后求导求最小值,最后引入KTT条件求解。拉格朗日对偶首先对问题引入拉格朗日函数,如下:原问题就等价于:原问题是一个凸二次规划问题,和它的对偶问题满足强对偶关系,即原问题等价于对偶.原创 2020-08-14 18:00:45 · 820 阅读 · 0 评论 -
SVM笔记(一)硬间隔SVM
什么是SVM?SVM是一种二分类算法,其中SVM三个重要的部分是间隔、对偶、核技巧。SVM的基本模型是定义在原始特征空间上基于最大间隔的线性分类器,Kernal的引入使得SVM变成了非线性分类器。SVM的学习策略就是最大化间隔,后面跟会提到两种间隔:functional margin和geometric margin。可将这个学习问题转换为一个解凸二次规划的问题,SVM就变成了一个解凸二次规划问题的最优化算法。kernal思想同样可以用在其他机器学习算法中。原创 2020-08-12 23:52:32 · 2403 阅读 · 0 评论 -
正则化、岭回归与LASSO回归(套索回归)
首先补充一些铺垫知识无偏估计百度百科:无偏估计是用样本统计量来估计总体参数时的一种无偏推断。估计量的数学期望等于被估计参数的真实值,则称此估计量为被估计参数的无偏估计,即具有无偏性,是一种用于评价估计量优良性的准则。简单来说,就是对总体样本进行多次采样,求出每次采样的样本均值,根据中心极限定理,这些多次取样的样本均值应该是服从正态分布的,求出这个分布的期望,这个期望等于总体样本的期望,那么这个估计就具有无偏性,就是一种无偏估计,这恰恰是构建回归算法(可以看这篇)的假设函数的基本思想。首先确定原创 2020-06-07 23:59:51 · 2147 阅读 · 0 评论 -
过拟合的原因以及如何解决
如何判断过拟合?简单来说就是当模型在训练集上的表现效果非常好,并且远好于在测试集上的表现效果,那基本就是过拟合了。如果在训练集上表现都不好,很可能是欠拟合,,,过拟合的原因?1. 数据特征过多,而数据量不足。对于回归类的算法而言,特征越多意味着参数数量越多,模型也就越复杂,而相比之下如果数据量不足会导致过拟合,也就是模型复杂度与数据量不匹配。2. 训练集和测试集的数据特征、分布不够相似,这一点根本原因也是训练集过小,在总体样本中,训练集和测试集只占很小一部分,这就导致很难保证训练集和测试集与原创 2020-06-07 10:42:30 · 4686 阅读 · 0 评论 -
广义线性模型总结(GLM)
CS229中对于指数族分布和广义线性模型的总结,在这篇广义线性模型的总结中主要会解决上一篇中的几个问题,这样会有一个整体的理解。原创 2020-06-03 23:28:16 · 2494 阅读 · 0 评论 -
cs229线性回归和逻辑回归总结
假设函数(Hypotheses function)首先应该设计一个假设函数,这个假设函数是用来表示一个线性回归的问题,不是一个单独的函数,而是一个函数集合,包含很多个有可能可以很好的表示这个线性回归问题的函数,也就是通常所说的model。一般来讲线性回归的假设函数我们表示成这个样子:其中是第i个特征,是第i个特征的权重,是bias偏移量。为了将这个式子更加简化,可以将用代替,其中,因此我们可以写成向量相乘的形式:,其中和都是向量,,以上是线性回归的假设函数。...原创 2020-06-02 23:52:17 · 582 阅读 · 0 评论 -
【Meachine Learning】lecture1 --吴恩达
视频地址:https://www.bilibili.com/video/av50747658/?p=11-3 Supervised Learning 监督学习P1 Regression Problem 回归问题视频中介绍了一个经典的例子:关于房价的预测。图中横轴是房子的大小,纵轴是房子的价格。通过监督学习训练出一个函数对应房子的大小和价格,从而对房价进行预测。简单来说,回归...原创 2019-08-08 23:04:18 · 346 阅读 · 0 评论 -
李宏毅 Gradient Descent总结
Review在解决问题时一般分为三个步骤:步骤一:选择一个function set步骤二:找到loss function步骤三:最小化loss function找到function set中最优的function。步骤三中常用的方法就是梯度下降(Gradient Descent)。θ∗=arg minθL(θ)\theta^*=arg\,\min_{\theta}L(\theta)θ...原创 2020-02-08 21:41:49 · 253 阅读 · 0 评论 -
Where does the error come from?----Bias and Variance
Review首先我们知道在不同的function set上error不同,也就是在不同的model上error是不同的,这个原因显而易见;在同一个function set里不同的function对data产生的error也是不同的,因为同一个model但参数不同导致model有细微的差异,所以error自然也不相同。那我们知道当model越复杂,error不一定是会越小的。当model过于复杂...原创 2020-02-07 16:35:44 · 125 阅读 · 0 评论 -
回归问题
Regression理解Regression是回归问题,regression应该输出一个具体的数值,结果集应该是连续的而不是离散的。举例:Stock Market Forecast:股票市场预测,输入股票市场相关参数,输出某支股票明天的价格的预测。Self-Driving Car:自动驾驶,输入车辆的环境特征,输出车辆的下一个时刻的方向盘角度和瞬时速度Recommendati...原创 2020-01-21 19:46:20 · 309 阅读 · 0 评论 -
机器学习中的正则化(Regularization)
正则化的概念及原因简单来说,正则化是一种为了减小测试误差的行为(有时候会增加训练误差)。我们在构造机器学习模型时,最终目的是让模型在面对新数据的时候,可以有很好的表现。当你用比较复杂的模型比如神经网络,去拟合数据时,很容易出现过拟合现象(训练集表现很好,测试集表现较差),这会导致模型的泛化能力下降,这时候,我们就需要使用正则化,降低模型的复杂度。正则化的几种常用方法L1 & L...转载 2019-12-16 18:25:13 · 1735 阅读 · 0 评论 -
【深度学习-花书】第二章 线性代数
2.1 标量、向量、矩阵和张量标量(scalar)一个标量就是一个单独的数,就把他理解为一个普通的数。例如:2,3,5,这些都是标量,还有nN,这些也是标量,表示定义了一个自然数标量。向量(vector)向量是一个和标量相对的概念,一个向量是一组数,并且这组数是有序的。因此我们可以通过确定的索引确定每个单数的数。当我们定义一个向量x,这个向量包含n个元素,并且每个元素如果都属于实数...原创 2019-11-16 22:44:08 · 565 阅读 · 0 评论 -
周志华机器学习西瓜书速记第二章绪论模型评估与选择(二)
2.3 性能度量对模型的泛化性能进行评估,不仅需要有效可的评估方法,还要有模型的泛化能力的评价标准,这就是性能度量。对预测任务就要把模型对于每个输入的预测效果f(x)与真实的结果进行比较。回归任务最常用的性能度量是“均方误差”,就是类似数学方差。即实际输出与预期输出做差求平方在求均值。2.3.1 错误率与精度错误率与精度是分类任务中最常用的两种性能度量。2.3.2 查准率、...原创 2019-10-29 11:42:34 · 236 阅读 · 0 评论 -
周志华机器学习西瓜书速记第二章绪论模型评估与选择(一)
2.1 经验误差与过拟合错误率:m个样本a个样本分类错误,错误率为E=a/m精度 = 1 - 错误率,即:1-a/m训练误差(经验误差):学习器在训练集上的误差。泛化误差:学习器在新样本上的误差。通常来讲,训练误差很小的学习器往往过拟合,这样对新的样本的泛化误差回大很多。于过拟合相对应的是欠拟合,这是指对训练样本的一般性质尚未学好。2.2 评估方法我们用一个测试集来...原创 2019-10-14 22:39:41 · 241 阅读 · 0 评论 -
周志华机器学习西瓜书速记第一章绪论
1.1 引言模式:指局部性结果(例如一条规则) 模型:指全局性结果(例如一颗决策树)1.2 基本术语数据集 样本、示例 属性、特征 属性值 属性空间、样本空间、输入空间:属性或样本的数量 特征向量:样本在属性空间中对应的点 泛化:学得的模型适用于新样本的功能称为泛化 归纳与演绎:归纳是特殊到一半的泛化,演绎是一般到特殊的泛化 归纳有广义和狭义之分,广义的归纳学习相当于从...原创 2019-10-10 22:44:15 · 287 阅读 · 1 评论 -
KNN--K近邻算法
一、KNN算法概述KNN算法(k-NearestNeighbor),即K最近邻,是一种监督学习(Supervised Learning)算法字面意思是与计算点最近的k个相邻点,意思是说每个样本点都可以用与之最近的k个相邻的点来表示。KNN是一种分类算法(Classification Algorithm),它所谓的学习过程是基于输入的实例的,类似于懒惰学习(Lazy Learning),即K...原创 2019-08-09 20:17:37 · 670 阅读 · 0 评论