转自:https://www.zhihu.com/people/weiweicai/activities
有监督学习
回顾一下,数据挖掘大致是说从已有的数据里面找规律,或者是挖掘出我们感兴趣的知识。举个例子,先给你数据如下: 一种动物,会飞,有翅膀,那么你会想到什么?答案是鸟。你之所以能够想到是鸟,原因是你以前见过,或者是小时候老师教给你说,这是是鸟。那么这和数据挖掘有什么关系呢?当然有关系,如果你输入了以上关键词(动物,会飞,有翅膀),怎么让机器知道这个是鸟呢?答案是不可能,除非你提前告诉计算机,说一种动物,会飞,有翅膀,这就是鸟。这个“告诉“的过程叫做打标签(labelling), 这个就和小时候老师教你的过程一模一样。
那么重点来了,什么是有监督学习 (supervised learning)?用有标签(label)的数据来做数据挖掘的过程,叫做监督学习。当然这里”做数据挖掘“这个说法很抽象,有功底的同学都知道这个过程和机器学习有密不可分的联系,但是如果你是初学者,那么就记住:有标签的就是有监督学习,反之无标签的就是无监督学习(unsupervised learning),这个后面我会提到。我后面的文章也会让你对有监督学习和无监督学习有进一步的认识。
看到这里你也许会问,怎么样给这些关键词打标签(labelling )呢?很简单,你把数据存数据库的时候分2个字段,前面的字段存关键词,