读书笔记(提炼理解总结)
监督学习
首先我们需要有一个由一组样本组成的数据集
然后样本中有属于它自身的属性元祖
补充个知识 : 数据集会分为训练集和测试集
有监督学习
在一个有监督的学习任务中,数据样本将包含一个目标属性 yy,通过学习得到一个函数 F,使得它接受非目标属性 X,并输出一个接近目标属性的值,即 F(X) \approx yF(X)≈y。
简单说就是找一组全部带标记的数据集进行学习训练,从而实现模型
输入数据全部为带标记数据
无监督学习
与有监督的学习 相反,无监督学习是数据集没有设置真值。人们期望从数据中学习潜在的模式或规则,而不以预先定义的真值作为基准。
聚类(Clustering):给定一个数据集,可以根据数据集中样本之间的相似性,将样本聚集成组。
关联(Association):给定一个数据集,关联任务是发现样本属性之间隐藏的关联模式。
简单说就是找一组不带标记的数据集进行学习训练,从而实现模型进行预测
输入数据全部为不带标记数据
半监督学习
适用范围:数据集大,标记样本少,可找到同时具备有监督和无监督学习的应用
通过将有监督和无监督的学习结合在一个只有少量标记的数据集中,人们可以更好地利用数据集,并获得比单独应用它们更好的结果。
方法最好的一种 策略是首先将样本聚类成组(无监督学习),然后对每个组分别应用有监督的学习算法。第一阶段的无监督学习可以帮助我们缩小学习的范围,第二阶段的有监督学习可以获得更好的精度。
输入数据 带and不带标记数据