机器学习
机器学习:机器通过对大量的数据集中学习,进而得到一个更加符合现实规律的模型。通过对模型的使用,使得机器对于新的数据集能够有很好的预测。
有监督学习
有监督学习:根据已有的训练数据集,每一个数据都知道输入和输出结果之间的关系。根据这种已知的关系,训练得到一个最优的模型。
有监督学习的可分为两类:分类或回归
分类:定性输出,输出的结果是有限的,离散变量预测。例如:肿瘤的预测,只有“是”和“否”的确定答案。
回归:定量输出,连续变量预测。例如:房价的预测,房屋的价格是具有变化的连续数值。
无监督学习
无监督学习:已有的数据集中数据、特征之间未建立关系,而是要根据聚类或一定的模型得到数据之间的关系
聚类:某一个特定的标准,把一个数据集分割成不同的类或簇,使得同一个簇内的数据对象的相似性尽可能大,同时不再同一个簇内的数据对象的差异性也尽可能的大。例如:新闻按照内容结构的不同分成财经,娱乐,体育等不同的标签,这就是无监督学习中的聚类。
半监督学习
半监督学习:有监督学习和无监督学习的中间带,训练数据的一部分是有标签的,另一部分没有标签,而没标签数据的数量常常远远大于有标签数据数量。
半监督学习基本规律在于:数据的分布必然不是完全随机的,通过一些有标签数据的局部特征,以及更多没标签数据的整体分布,就可以得到可以接受甚至是非常好的分类结果