【译】微软 azure -- 机器学习算法选择的步骤

最新推荐文章于 2024-08-08 07:57:49 发布

_iorilan

最新推荐文章于 2024-08-08 07:57:49 发布

阅读量1.9k

点赞数 4

分类专栏： Machine Learning Microsoft Azure 文章标签： azure 微软机器学习算法选择数据

Microsoft Azure 同时被 2 个专栏收录

82 篇文章 0 订阅

订阅专栏

Machine Learning

43 篇文章 1 订阅

订阅专栏

原文：
https://azuremlsimpleds.azurewebsites.net/simpleds/

预测值

实例场景：
估计产品需求
预测销售数据
决定设备服务优先级

算法选择：
序数回归：类别是有序的
泊松回归：预测事件次数
快速森林分位数回归：预测一种分布
线性回归：快速训练，针对线性模型
贝叶斯线性回归：针对线性模型，小数据集
神经网络回归：预测较精确，但训练时间长
决策森林回归：较精确，训练快速，手工选择特征
提升决策树回归：精确，训练快速，占用较大内存

找出异常情况

实例场景：
预测信用风险
欺诈检测
捕获异常设备读取

算法选择：
一元SVM：100个特征以内
基于PCA的异常检测：训练快速

聚类（结构挖掘）
实例场景：
客户分类
预测客户口味
决定哪种产品会以同样的原因失败

算法选择：
K-Means

两种类别中预测某类别
实例场景：
某观点是否乐观
客户是否会续约
哪种优惠券吸引更多客户

算法选择：
二元SVM：少于100个特征，线性模型
二元平均感知器：快速训练，线性模型
二元贝叶斯点机：快速训练，线性模型
二元决策森林：精确，训练快速
二元逻辑回归：训练快速，线性模型

二元提升决策树：精确，训练快速，但占用较多内存

二元决策丛林：精确，使用内存较少（相比决策森林）

相对于决策树而言，解决了在训练数据非常大的情况下，节点指数增长的问题。

更多二元决策丛林的资料

二元本地深度SVM：少于100个特征
二元神经网络：精确，但训练时间长

多个类别中预测某类别
实例场景：
这条微博的心情是什么
这个客户会选择哪种服务
哪几种优惠会吸引更多客户

算法选择：
多元逻辑回归：快速训练，线性模型
多元神经网络：精确，训练时间长
多元决策森林：精确，训练时间短
多元决策丛林：精确，占用内存少（相比决策森林）
多元分类（One vs All）：取决于二元分类器