一天一个机器学习小知识
文章平均质量分 92
易长安
这个作者很懒,什么都没留下…
展开
-
一天一个机器学习小知识——决策树
文章目录前言一、算法推导1.模型2.策略3.算法3.1 ID3(信息增益最大)3.2 C4.5 (信息增益率最大)3.3 CRAT(基尼系数最小)3.4 剪枝二、应用场景三、代码实现1.导入相关库2.读取样例数据3.划分训练集和测试集4.建立模型四、优缺点1.优点2.缺点前言本文主要介绍一个常见的分类算法——决策树。决策树虽然简单,但是它的结果非常直观,容易理解和解释,并且它是很多集成模型的基学习器,在机器学习中具有重要的地位。一、算法推导李航老师的《统计学习方法》中提到,统计学习方法都是由模型原创 2020-10-25 15:46:04 · 450 阅读 · 0 评论 -
一天一个机器学习小知识——支持向量机
文章目录前言一、算法推导1.模型2.策略3.算法4.SVM的拓展4.1 软间隔4.2 核技巧二、应用场景三、代码实现1.导入相关库2.读取样例数据3.划分训练集和测试集4.建立模型5.评估模型四、优缺点1.优点2.缺点前言支持向量机(Support vector machines,SVM)是一种二分类模型(可以拓展至多分类)。它的基本模型是定义在特征空间上的间隔最大化的线性分类器。它跟感知机的联系是,感知机是满足分类条件的其中一个超平面,而SVM是最鲁棒的那个。一、算法推导1.模型SVM是在所原创 2020-10-20 22:31:38 · 502 阅读 · 0 评论 -
一天一个机器学习小知识——类别不平衡问题的解决方法
文章目录前言一、改变阈值1.理论介绍2.代码实现二、抽样方法1.理论介绍1.1 欠采样1.2 过采样2.代码实现2.1 欠采样2.1 欠采样三、改变样本权重1.理论介绍2.代码实现总结前言类别不平衡是机器学习中经常遇到的问题,有时候类别不平衡会直接影响到模型的训练结果。这里介绍几种常见的缓解类别不平衡问题的方法。假设样本数较少的类为正类,反之为负类。一、改变阈值1.理论介绍比如逻辑回归可以写成如下形式,若y1−y>m+m−\frac{y}{1-y}>\frac{m^{+}}{m原创 2020-10-08 14:02:26 · 1153 阅读 · 1 评论 -
一天一个机器学习小知识——线性判别分析
文章目录前言一、算法推导1.模型2.策略3.算法二、应用场景三、代码实现1.导入相关库2.读取样例数据3.划分训练集和测试集4.建立模型5.评估模型四、优缺点1.优点2.缺点前言前面几小节介绍的线性回归、Lasso、Ridge以及弹性网都是回归模型,但是现实生活中还是会有很多分类问题,因此本文就介绍一个机器学习中最常见的分类模型——逻辑回归。逻辑回归是最经典的分类模型之一,一方面,它保持了线性回归的可解释性,从参数的大小可以知道每个特征对结果的影响程度;另一方面,它的输出具有概率意义,可以为很多决策原创 2020-10-07 21:19:39 · 783 阅读 · 0 评论 -
一天一个机器学习小知识——逻辑回归
文章目录前言一、算法推导1.模型2.策略3.算法二、应用场景三、代码实现1.导入相关库2.读取样例数据3.划分训练集和测试集4.建立模型5.评估模型四、优缺点1.优点2.缺点前言前面几小节介绍的线性回归、Lasso、Ridge以及弹性网都是回归模型,但是现实生活中分类问题往往也很常见,因此本文就介绍一个机器学习中最常见的分类模型——逻辑回归一、算法推导李航老师的《统计学习方法》中提到,统计学习方法都是由模型、策略和算法构成的,因此本文在算法推导也主要从这三部分进行展开讨论。1.模型虽然逻辑回原创 2020-10-07 15:41:25 · 776 阅读 · 1 评论 -
一天一个机器学习小知识——Lasso、Ridge以及ElasticNet
文章目录前言一、算法推导1.1 Lasso模型1.2 Lasso策略1.3 Lasso算法2.1 Ridge模型2.2 Ridge策略2.3 Ridge算法二、应用场景三、代码实现1.导入相关库2.读取样例数据3.划分训练集和测试集4.建立模型5.评估模型四、优缺点1.优点2.缺点前言上一小节主要介绍了线性回归算法,并且在文章的末尾提到了它所存在的一些缺陷,事实上在线性回归的基础上稍作改进就可以很好的客服这些缺陷。因此本小节主要介绍线性回归的几个拓展模型:Lasso、Ridge以及ElasticNe原创 2020-10-06 17:54:27 · 3427 阅读 · 0 评论 -
一天一个机器学习小知识——线性回归
文章目录前言一、算法推导1.模型2.策略3.算法二、应用场景三、代码实现1.导入相关库2.读取样例数据3.划分训练集和测试集4.建立模型5.评估模型四、优缺点1.优点2.缺点前言本栏目主要介绍机器学习中的算法模型,具体包含算法推导、应用场景、代码实现以及优缺点比较这几个模块。本文先介绍机器学习中最简单的一个算法模型——线性回归。一、算法推导李航老师的《统计学习方法》中提到,统计学习方法都是由模型、策略和算法构成的,因此本文在算法推导也主要从这三部分进行展开讨论。1.模型模型通俗来说就是最后要原创 2020-10-05 20:04:31 · 419 阅读 · 2 评论 -
一天一个机器学习小知识——模型评估与选择
本节主要介绍机器学习中常用的一些模型评估方法以及模型性能度量指标。一、误差的分类当我们构建并且训练一个模型的时候,我们需要知道这个模型的效果怎么样,这时候就要引入“误差”的概念。机器学习中误差主要分为两种:(1)训练误差/经验误差:模型在训练集上的误差(2)测试误差/泛化误差:模型在测试集上的误差在实际应用中,我们主要关注的是泛化误差。对于经验误差很低,但是泛化误差很高的情况我们称之为“过拟合”,而经验误差和泛化误差都很高的情况我们称之为“欠拟合”...原创 2020-10-05 09:59:40 · 435 阅读 · 0 评论