备注:本文主要来自于对《深入浅出python机器学习》书籍和其它资料的的学习总结笔记,感兴趣的同学可以购买本书学习,学习的本质就是形成自己的逻辑。
1、什么是机器学习
卡耐基梅隆大学的著名教授Tom Mitchell曾这样定义:如果一个程序在使用即有经验执行某类任务的过程中被认定是“具备学习能力的”,那么它一定需要展现出—利用现有经验,不断完善其完成既定任务的性能的特质。那么我们会发现3个关键术语:经验-Experience,任务-Task,性能-Performance。
1)任务
-
机器学习的任务种类有很多,经典的两类任务是监督学习和无监督学习。
-
监督学习先用训练集数据确定某一规则,再将此规则用于测试集数据看是否能获得好的分类性能,它关注对事物未知表现的预测,一般包括分类和回归问题;无监督学习则没有训练集数据,直接在所有数据中进行分类,它倾向于对事物本身特性的分析,常用的是数据降维和聚类问题。
-
监督学习中的分类问题,是指对类别变量进行分类预测,如根据一个人的三维数据预测性别分类;监督学习中的回归问题,是指对连续变量的预测,如根据房屋的特征数据预测销售价格。
-
无监督学习中的数据降维,是指对事物的特性进行压缩和筛选,如图像人脸识别任务中,直接使用像素信息数据的维度就特别高,需要对图像信息进行降维,保留最具有区分度的像素组合;无监督学习中的聚类问题,是指依赖数据的相似性,把相似的数据样本划分为一个簇,如电子商务网站根据用户的信息和购买习惯进行聚类,针对他们不同的兴趣投放广告和促销信息。
2