Scikit-learn,简称Sklearn,是超级好用的,也是使用最广泛的开源Python机器学习库,它基于Numpy和Scipy,提供了大量用于数据挖掘和分析的工具,包括数据预处理、交叉验证、算法与可视化算法等一系列接口,其中提供的模型能够实现分类,回归,聚类,数据降维等功能。
不过,解决机器学习问题的最难的部分,其实不是缺乏工具,而是如何为具体项目找到合适的机器学习模型。
- 比如说,我老板丢给我20万个客户的淘宝网店购物记录,让我预测一些其中那些客户未来的一年内有较高的生命周期价值,用哪个模型?
- 又比如说,我老板又丢给我1000个客户的下载、注册、使用和卸载我们的App的行为记录,让我预测其中一些客户未来3个月内流失的可能性,用哪个模型?
Sklearn中的工具这么多,怎么知道哪个模型更适合于解决什么类型的数据和什么样的问题呢?
别怕,Sklearn官网上面,有一个流程图旨在为用户提供一些粗略的指导,以指导他们如何处理有关哪些估算器尝试使用数据的问题。
有的童鞋一看,又头大了!英文的,看不大懂啊。
不要着急,我们特意为您翻译整理了这张超级有用的图表的中文版本。