机器学习漫谈

最新推荐文章于 2024-09-17 21:19:44 发布

置顶青瑟只鸟

最新推荐文章于 2024-09-17 21:19:44 发布

阅读量2.9k

点赞数 1

分类专栏：数据挖掘算法文章标签：机器学习数据分析数据挖掘

本文链接：https://blog.csdn.net/u011300443/article/details/47449011

版权

数据挖掘算法专栏收录该内容

6 篇文章 1 订阅

订阅专栏

机器学习漫谈

数据挖掘/机器学习项目一般包括四个关键部分，分别是，数据分析，特征工程，建立模型，验证。

1 数据分析

从广义上讲，数据分析包括数据收集，数据处理，数据清洗，探究性数据分析，建模和算法设计，数据可视化等等[1]。从狭义上讲，数据分析指的是探究性数据分析（EDA）。

所谓探索性数据分析（Exploratory Data Analysis，以下简称EDA），是指对已有的数据（特别是调查或观察得来的原始数据）在尽量少的先验假定下进行探索，通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法[2]。

数据分析常用工具有Excel，SPSS，python，R等等。我常用的工具是Excel和python。

数据分析可以做什么？

1、计算数据中每个属性的范围，四分位点，百分位点等。

2、单属性排序，多属性排序，取Top N或Bottom N。

3、按条件过滤。多个条件联合过滤，做交并差。

4、利用图表查看某个属性值在给定数据集上的分布情况。比如箱线图，直方图，折线图。

5、利用散点图查看两个属性的相关性。

6、聚类分析，通过可视化数据发现相似的对象。聚类是将相似的对象划为同一组，使得组内对象相似度高，组间对象差异大[3]。

7、利用散点图查看异常点。

2 特征工程

特征工程与领域知识紧密相关，需要深入理解当前业务。特征可以分为两类，稀疏特征和紧密特征。稀疏特征是指只有极少的属性值非零的特征。

2.1 设计特征

以商品推荐为例，首先构建三类基本特征。

1、用户对商品的行为特征。最近3天（7天/14天/30天/总的）用户点击（收藏/加入购物车/购买）商品的次数；最后一次点击时间；点击（收藏/加入购物车/购买）的天数……

2、品牌自身的特征。最近7天（30天/总的）被点击（收藏/加入购物车/购买）次数，最近7天（30天/总的）点击（收藏/加入购物车/购买）该商品的用户数目，回头客的数目……

3、用户自身的特征。购买的商品件数；第一次（最后一次）访问时间（购买时间）……

由基本特征衍生出一些特征，其中包含很多强相关特征。例如，转化率，回头率，最近一个月用户点击（购买）该商品的次数除以用户对所有商品的点击（购买）次数……

特征的扩充通常是将基本特征两两相除、相乘、求交、求并等等，获得新的特征。将单特征的属性值用0-1编码扩充成多个特征也是常用的技术之一，俗称“哑变量”。也可以将多个特征的属性值按一定的权值相加，构成新的特征。

2.2 特征归一化

通常情况下，SVM和GBDT模型需要预先进行特征归一化，而RF不需要。常用特征归一化方法有三种。

1、最大最小值归一化。x' = (x - min) / (max - min)

2、Z-score归一化。x' = (x -μ) /σ

3、对数归一化。x' = log(1+x)

如果机器学习模型使用梯度下降法求最优解，那么往往需要归一化，否则很难收敛甚至不能收敛【7】。

2.3 特征选择

非正式地说，特征选择是从大量原始特征集合中，选择一个子集，使得模型简单有效。特征选择有三大好处：1、增强了模型的泛化能力，改善了预测器的性能；2、缩小了算法消耗的空间，缩短了算法消耗的时间；3、模型更容易解释。

特征选择算法分三类。

1、特征排序，又称筛选器特征选择方法（Filter Methods）。不考虑特征间的依赖性，按一定的标准为每个特征打分，从高到低选取特征。例如，分别计算每个特征与目标变量的相关系数，取绝对值最大的Top N个变量。常见的标准包括卡方检验（卡方值越大越相关），信息增益（信息增益最大越好），基尼指数（基尼指数越小越好），相关系数（相关系数越大越好）。三类经典决策树模型的主要区别在于特征选择算法不同，ID3采用信息增益，C4.5采用信息增益率，CART 采用基尼系数。优点：计算简单、快速。缺点：忽略特征间的相关性。

2、包装器方法（Wrapper Methods）。包装器方法主要有三种，向前贪心算法，向后贪心算法，向前向后算法。向前贪心算法，即从空特征集合起，每次向集合中添加一个特征，直到模型性能不再改善为止。向后贪心算法，即从满特征集合起，每次从集合中删除一个特征，直到模型性能不再改善为止。该类方法的缺点有两个，分别是容易过拟合和计算时间比较长。优点：考虑特征间的相关性。缺点：比Filter方法更容易过拟合，且计算量大。

3、嵌入式方法（Embedded Methods）。嵌入式方法和包装器方法类似，但是嵌入式方法不容易过拟合且消耗时间较短。举一个嵌入式方法的例子，引入L1正则项，训练后权重为0的特征就是被丢弃的特征。优点：考虑特征间的相关性，且比Wrapper方法计算量小得多。

“scikit-learn”文档[5]中介绍的特征选择方法包括，丢弃低方差的特征，卡方检验，用交叉检验的方法递归消除特征，用带L1正则项的线性模型训练然后选择权重非0的特征，基于树的特征选择等等。

3 建立模型

常见的四种模型分别是LR（线性回归/ logistic回归）、SVM、RF、GBDT。每种模型有自己的损失函数，损失函数由损失项和正则项两部分构成。线性回归采用平方误差损失函数，logistic回归采用log损失函数，SVM采用hinge损失函数。对于分类问题，RF通常采用基尼指数作为损失函数，又称评价标准，有时也选择将信息增益率作为评价标准。对于回归问题，RF通常将均方误差作为损失函数。对于分类问题，GBDT通常将负的二项式对数似然函数作为损失函数。对于回归问题，GBDT通常采用的损失函数包括平方误差损失函数，Huber 损失函数（对异常值不敏感），指数损失函数，对数损失函数等。

3.1 LR（线性回归/logistic回归）

一般来讲，线性回归适用于回归问题，logistic回归适用于分类问题。LR（线性回归/logistic回归）模型非常简单，不容易过拟合，适合做baseline。线性拟合好不好一般看R²，R²越接近1越好。LR计算速度很快，与L1正则化配合使用，可以处理包含成千上万维稀疏特征的海量数据。LR模型的可解释性很强，应用广泛，是其他模型的基石。LR容易吸收新的数据，并更新模型（用随机梯度下降算法）。对于很多实际问题（如广告点击率预测），往往特征非常多，这时候时间约束通常不允许我们使用很复杂的非线性分类器。这也是为什么算法发展这么多年，广告点击率预测最常用的方法还是logistic回归[6]。LR的缺点是不适合解决非线性问题，不适合处理无序类别特征（比如职业分类为工、农、商、学、兵5类）。前者的解决措施是进行特征变换，后者的解决措施是采用哑变量进行编码。