![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习的100个坑
二哥不像程序员
公众号:数据山谷
展开
-
逻辑回归和线性回归有何不同?
分类和回归问题 首先我们来明确两个大类:分类问题和回归问题。 分类问题:输入变量与输出变量均为连续变量的预测问题是回归问题 回归问题:输出变量为有限个离散变量的预测问题为分类问题 举个例子: 预测明天的气温是多少度,这是一个回归问题; 预测明天是阴、晴还是雨,就是一个分类问题。 线性回归 线性回归是一个典型的回归算法,所谓的线性回归指的就是用一条直线能够较为准确的描述数据之间的关系,...原创 2019-11-07 16:03:05 · 3040 阅读 · 0 评论 -
常见的超参数调优方法
学习器模型中一般有两类参数,一类是可以从数据中学习估计得到,还有一类参数时无法从数据中估计,只能靠人的经验进行设计指定,后者成为超参数。比如,支持向量机里面的C, Kernal, game;朴素贝叶斯里面的alpha等。 网格搜索 网格搜索通过查找搜索范围内的所有的点来确定最优值,如果采用较大的搜索范围和较小的步长,网格搜索有很大的概率找到全局最优值。但是随着超参数的增加这种搜索方法十分消耗计...原创 2019-11-06 16:16:26 · 3170 阅读 · 0 评论 -
怎样处理过拟合和欠拟合?
过拟合和欠拟合 从模型在不同集合上的表现来看 首先来明确一下过拟合和欠拟合的概念。 过拟合(下图中最右侧的图像) 过拟合指的是训练数据拟合程度过高的情况,也就是说模型在训练集上表现的很好,但是在测试集和新的数据集上表现的较差。 欠拟合(下图中最左侧的图像) 了解了什么是过拟合,欠拟合也显而易见,当模型在训练集和测试集表现的都不好的时候我们就称这种现象为欠拟合。 从方差和偏差的角度来看 ...原创 2019-11-05 14:40:00 · 990 阅读 · 0 评论 -
模型评估过程中,主要的验证方法与优缺点。
Holdout检验 Holdout检验是最简单也是最直接的验证方法,它将原始的样本随机划分成训练机和验证集两部分,通常情况下我们把样本按照70%-30%的比例分成两部分,70%用于模型的训练,30%用于模型的验证,包括绘制ROC曲线,计算精确率和召回率等指标来评估模型性能。 同时Holdout的缺点也很明显,即在验证集上计算出来的最后评估指标与原始的分组有很大关系,为了消除这种验证的随机性“交...原创 2019-11-05 13:54:46 · 3444 阅读 · 0 评论 -
在对数据进行预处理时,怎样处理类别型特征?
什么样的特征是类别型特征? 类别型特征主要是指性别(男/女),体型(胖/瘦/适中)等只有在选项内取值的特征,类别型特征的原始输入通常是字符串形式,除了决策树等少数模型能够直接处理字符串形式的输入,对于逻辑回归、支持向量机等模型来说,类别型特征必须经过处理转换成数值型特征才能正确工作。 序号编码 序号编码通常用于处理类别间具有大小关系的数据,例如考试的成绩可以由好到坏分为(A、B、C、D)四档...原创 2019-11-04 15:01:53 · 998 阅读 · 1 评论 -
为什么要对数值类型特征做归一化?
给出一个场景 通过住户的居住面积和楼层来分析他们的居住舒适度,楼层的特征会在1-20(层)数值范围内,居住面积的特征会在30-200(平方米)数值范围内,那么根据这两种特征分析出来的数据居住面积会成为决定性更大的特征,这显然是不准确的,此时就需要我们进行特征归一化,使得各个特征处于同一个数值量级,然后再进行分析。 常用的特征归一化方法 最大最小归一化(Min-Max Scaling) 最大最小归...原创 2019-11-01 14:53:45 · 2438 阅读 · 0 评论