大数据
文章平均质量分 73
springk
这个作者很懒,什么都没留下…
展开
-
特征工程之特征预处理——来自小白的进阶之路(一)
特征工程-特征选择:在机器学习和模式识别中,特征是被观测对象的可测量性能或特性。在模式识别、分类和回归中,信息特征的选择、判别和独立特征的选择是有效算法的关键步骤。特征通常是数值型的,但语法模式识别可以使用结构特征(如字符串和图)。“特征”的概念与线性回归等统计技术中使用的解释变量有关。特征也就是我们常常说的变量/自变量,一般分为三类:无序类别(离散)型有序类别(离散)型连续型根据不同类型的特征进行数据预处理,对算法准确性尤为重要原创 2021-10-09 16:08:42 · 1225 阅读 · 0 评论 -
特征工程之特征选择——来自小白的进阶之路(二)
在机器学习和统计学中,特征工程下的特征选择也被称为变量选择、属性选择或变量子集选择。它是指为了构建模型而选择相关特征(即属性、指标)子集的过程。使用特征选择技术有三个原因:简化模型,使之更易于被用户理解缩短训练时间改善通用性、降低过拟合(即降低方差)要使用特征选择技术的关键假设是:训练数据包含许多冗余或无关的特征,因而移除这些特征并不会导致丢失信息。冗余或无关特征是两个不同的概念。如果一个特征本身有用,但如果这个特征与另一个有用特征强相关,且那个特征也出现在数据中,那么这个特征可能原创 2021-10-13 11:22:48 · 1803 阅读 · 0 评论 -
什么是类别、离散和连续变量?
定量变量可以分为离散变量和连续变量。类别变量类别变量包含有限的类别数或可区分组数。类别数据可能不是逻辑顺序。例如,类别变量包括性别、材料类型和付款方式。离散变量离散变量是在任意两个值之间具有可计数的值的数值变量。离散变量始终为数值变量。例如,客户投诉数量或者瑕疵或缺陷数。连续变量连续变量是在任意两个值之间具有无限个值的数值变量。连续变量可以是数值变量,也可以是日期/时间变量。例如,零件的长度,或者收到付款的日期和时间。如果您有离散变量而且想要将其包括在回归或方差分析模型中,可以决转载 2021-09-08 18:50:40 · 12368 阅读 · 0 评论