机器学习擅长的任务:
● 回归(regression)
● 分类(classification)
● 聚类(clustering)
1.回归(regression)
回归是处理连续数据时使用的方法,如时间序列数据。
股价就是时间序列数据的一个例子,身高和体重本身就是连续的数据,假如记录下每天的身高和体重,那么得到的数据就是类似于股价的时间序列数据了。
从这样的数据中学习它的趋势,求出“明天的股价会变为多少”“今后的趋势会怎样”的方法就是回归算法。当然了,股价的变动不只受过去股价的影响,所以光靠这个信息并不能很好地预测出来。
2.分类(classification)
鉴别垃圾邮件就可以归类为分类问题,即把问题分为不同的类别。
实际上机器学习中最麻烦的地方,就是收集数据,像以上垃圾邮件分类这张表,需要先用〇或×手动标记邮件是否为垃圾邮件;无论收集数据的环境变得多好,还是有很多需要人工介入的工作。
再比如,根据照片上的人脸来判断他是男人还是女人的工作也是分类问题,像这种只有两个类别的问题称为二分类,有三个及以上的问题称为多分类,比如数字的识别就属于多分类问题。
3.聚类(clustering)
聚类与分类相似,却又有些不同:它与分类的区别在于数据带不带标签。也有人把标签称为正确答案数据。
如上表,聚类算法考虑的问题是:假设在有100名学生的学校进行摸底考试,根据考试成绩把100名学生分为几组,根据分组结果,我们能得出某组偏重理科、某组偏重文科这样有意义的结论。
总结:使用有标签的数据进行的学习称为有监督学习,与之相反,使用没有标签的数据进行的学习称为无监督学习。回归和分类是有监督学习,而聚类是无监督学习。