一、按学习类型分类
从学习过程来看,机器学习可分为监督学习(supervised learning)、无监督学习(unsupervised learning)、半监督学习(semi-supervised learning)、强化学习(reinforcement learning)和深度学习(deep learning)。
1.监督学习
监督学习是从带有类别标签(label)的训练数据中学得一个模型,并基于此模型预测新样本标签的一种学习方式,是机器学习中使用最广泛的一种类型。
2.无监督学习
无监督学习是机器学习的另一大类学习方法,是在无标签的训练样本中发现数据规律的一种学习方式。
3.半监督学习
半监督学习是监督学习与无监督学习结合在一起的一种学习方法。
半监督学习方法训练模型时,可以先利用有标签的样本训练出一个模型,用这个模型去预测新的数据,然后询问专家,再将这个样本变为有标签样本;把这个新获得的有标签的样本加入训练集后重新训练一个模型,再去预测,依次重复,若每次都能预测出对改善模型性能帮助较大的数据,则只需询问专家较少的次数就能构建出较强的模型,从而大幅度降低标记成本。
4.强化学习
强化学习它能根据环境的改变而改变,从而获取最大的收益。
5.深度学习
深度学习的概念来源于对人工神经网络的研究,其模型结构是一种含多隐层的神经网络。
二、按完成的任务分类
1.回归
回归属于监督学习,最初是统计学中的一种方法,用来预测某个变量的变化趋势,其预测结果是连续的值,如预测房价、预测股价等。
若一个产品的实际价格为300元,通过回归分析预测值为299元,则认为这是一个比较好的回归分析。回归是对真实值的一种逼近预测。
圆点表示带有标签的训练数据;回归曲线表示经过训练后获得的回归函数或回归模型。若该回归任务表示对商品价格走势的预测(x表示年份,y表示商品价格),则由回归函数可以预测未来某年的商品价格。
在机器学习领域中,回归任务的实现需要先对数据样本点进行拟合,再根据拟合出来的函数对输入的新数据进行输出预测
2.分类
分类是通过在已有数据的基础上进行学习,得到一个分类模型,该模型可以将待分类的数据集映射到某个给定的类别中,从而实现数据分类。其中,分类模型也称为分类器。(属于有监督学习)
实心的正方形和圆表示带有标签的训练数据;分界线表示经过训练后获得的分类模型;空心的正方形和圆表示对输入的新数据进行预测。
在机器学习领域,分类任务的实现需要先利用已有数据训练一个分类模型(类似于数据样本中的分界线),然后对输入的新数据进行预测,即根据分界线对新数据进行分类,
3.聚类
聚类属于无监督学习,是按照某个特定标准把一个数据集分割成不同的类,使得同一类中的数据对象之间相似性尽可能大,不同类中的数据对象之间差异性也尽可能大。聚类任务中,每个类称为一个簇。
例如,现有多个客户的购物记录数据,且未对数据进行标记,通过聚类任务可将具有相同购物习惯的客户汇聚成类,不同类中的客户购买的商品种类不同,店铺运营即可根据该反馈信息向客户推荐相关商品。
聚类任务常用于对目标群体进行多指标划分.
补充:由于聚类任务中的数据没有标签,所以不知道输入数据的输出结果是什么,但是可以清晰地知道输入数据属于数据的哪一类。