机器学习分为监督学习,无监督学习和半监督学习
机器学习:
让机器从大量的数据集中学习,得到一个符合规律的模型,并通过模型对新数据进行预测
监督学习(supervised learning):
一、定义:
已知:数据集,输入输出之间的关系
训练数据:有特征,有标签
训练过程:找到特征和标签之间联系,得到一个最优的模型
预测(判断):对只有特征的数据进行判断其标签
二、分类:
回归(Regression),分类(Classification)
1、Regression:针对于连续型数据
**定义:**根据已经存在的数据,拟合出一个最优函数,可以对新出现的数据进行预测
举例:预测房屋价格
已知数据集:房屋面积和房屋价格以及两者之间 的关系(左图)
训练过程:不断优化找到最符合规律的函数y=f(x)
预测:给出一个新的房屋面积预测出其价格(右图)
2、Classification:针对离散型数据
**定义:**根据输入数据的特征对其进行分类,并对新数据的特征进行预测
举例:估计肿瘤性质
已知数据集:肿瘤大小、病人年龄以及对应的肿瘤是否为恶性,下图圏表示良性,×表示恶性
训练过程:找到可将良性于恶性分隔开的界限,将圏和×分割开
预测:给出一个新的病人,已知其肿瘤大小与年龄,将其放入训练好的模型中,判断出其所在位置即可预测他的肿瘤是否为良性。
无监督学习(unsupervised learning):
(聚类(clustering))
一、定义:
数据集:数据与特征之间关系未知
训练数据:无特征,无标签
训练过程:根据样本数据间的相似性对样本数据集进行分类
只分类,不预测
半监督学习
定义:
数据集:既有标记样本数据也有未标记样本数据