特征工程
据和特征决定了机器学习算法的上限,而模型和算法只是
不断逼近这个上限而已
2.1 特征提取
根据机器学习算法所要学习的目标和业务逻辑,我们需要考虑数据中有哪些可能相关的要素。
例如在美团酒店搜索排序中,酒店的销量、价格、用户的消费水平等是强相关的因素,用户的年龄、位置可能是弱相关的因素,用户的D是完全无关的因素。在确定了哪些因素可能与预测目标相关后,我们需要将此信息表示为数值类型,即为特征抽取的过程。
2.1.1 探索性数据分析
在统计学里,探索性数据分析( Expl orat。可Data Analysis , EDA) 是采用各种技术(大部分为可视化技术)在尽量少的先验假设条件下,探索数据内部结构和规律的一种数据分析方法或理念。
EDA技术通常可分为两类。一类是可视化技术,如箱形图、直方图、多变量图、链图、|怕累托图、散点图、茎叶图、平行坐标、让步比、多维尺度分析、目标投影追踪、主成分分析、多线性主成分分析、降维、非线性降维等;另一类是定量技术,如样本均值、方差、分位数、峰度、偏度等。
2.1.2 数值特征
数值类型的数据具有实际测量意义,例如人的身高、体重、Jfrl压等,或者是计数,例如一个网站被浏览多少次、一种产品被购买多少次等(统计学家也称数值类型的数据为定量数据)。数值类型的数据可以分为离散型和连续型。
机器学习模型可以直接将数值类型的数据格式作为输入,但这并不意味着没有必要进行特征工程。好的特征不仅能表示出数据中隐藏的关键信息,而且还与模