目录
机器学习分为监督学习和无监督学习。
—— 监督学习:
在处理数据过程中以标签数据为预测目标方向进行模型创建,包括分类和回归两种模型。
- 分类模型:从已标记的数据中学习如何预测为标记数据的类别,比如手写数字识别、车牌识别等等,目标变量是离散型数据。
- 回归模型:是对连续变量进行预测的一类模型,它分析预测自变量和因变量之间的关系,比如根据父母的身高统计数据去预测下一代的身高数据、股票跌/涨等等。
—— 无监督学习:
训练数据由一组输入向量组成,不包含任何相应的目标值(标签字段),目标是发现数据中的相类似的数据组(称为聚类)或判断输入空间内的数据分布(称为密度估计),或将高维数据投影到低维子空间等等。无监督学习的模型包括聚类、关联规则、生存分析等等。
如图所示是针对一个具体业务问题进行机器学习(数据挖掘)的流程,称为CRISP(CRoss Industry Standard Process)。
对Python中几个流行的机器学习模块做概要介绍:
—— Sklearn(Scikit-Learn)模块
它是为有监督和无监督机器学习设计的高级算法框架,作为Python科学计算生态