机器学习是什么
数据 ————> > 经验、规律 ————> > 预测、判断(由数据总结出经验和规律并应用于预测和判断)
机器学习基本术语
数据集 | 特征(自变量) + 标签(因变量) |
---|---|
Y:标签(label) | 也可以叫因变量,希望预测及解释的核心变量 |
X:特征(features) | 也叫自变量,反映事物或对象的某方面的表现性质 |
样本(sample) | 数据集中关于事物或者对象的每一条记录 |
模型(model) | 规律和经验 |
学习(learning) | 从数据中总结规律的过程 |
训练集(training data set) | 模型学习的教材 |
验证集(testing data set) | 检验模型的考试题 |
误差(error) | 衡量模型准确性的指标 |
比如下图中,左侧就是特征(自变量),右侧即为标签(因变量)
监督学习与非监督学习
1)监督学习里面的监督指的是什么?
监督(supervision):指的就是前面提到的Y
2)监督学习:在因变量或标签(Y)监督下的学习过程
目标:在数据集中寻找自变量(X)与因变量(Y)之间的关系
核心特征:数据集中有因变量或者标签(Y)
3) 监督学习的应用:
a. 房价预测
自变量:面积、房价等房屋属性
因变量:房屋价格
b. 图像识别
自变量:原始图像像素
因变量:图像中物体的标签
c. 银行信用评估
自变量:客户的信用行为
因变量:该客户是否存在信用风险
d. 语义识别
自变量:文本
因变量:文本含义
4)非监督学习:不存在因变量或标签(Y)监督下的学习过程
目标:在数据集中挖掘有价值的或有趣的信息或结构
核心特征:数据集中没有因变量或者标签
5) 监督学习的应用:
a. App客群的分类
数据:App客户上线行为数据
目标:使用聚类算法对客户进行分类
b. 词向量转换
数据:文本数据
目标:将文本转换为词向量
分类问题与回归问题
分类问题:因变量(Y)为离散的标签变量
回归问题:因变量(Y)为连续的标签变量
1) 分类问题和回归问题是监督学习还是非监督学习?
因为两者都是含有因变量(Y)的,所以是属于监督学习
2)场景划分
比如之前的房价的预测(属于回归问题,价格是属于连续的,但是如果把房价按照区间进行划分,就是一个分类问题)
猫狗识别的问题,属于分类的问题
如何评价一个学生成绩的好坏?
1) 设定评价的指标
假设按照三个指标
上课、做作业:正确率;
期末考试:分数(正确率);
高考:分数(正确率)
2)个体评价
上课、做作业:99%;
期末考试:95%;
高考:90%
这时候我们可以评价这个同学的成绩比较好
模型的预测能力如何判定?
1)设定评价的指标
以 回归问题 为例:
模型f(x)在数据集上的均方差(MSE)越小,则说明模型在数据集N上表现的就越好
2)模型评估过程
上课、做作业:模型训练;
期末考试:模型验证;
高考:模型应用
3)如何评价模型好坏
训练集(教材教辅):训练模型的数据集
验证集(模拟考卷):测试机器学习模型泛化能力(举一反三)的数据集
应用数据(高考):模型实际应用场景的特征集
比如依据上面的个体评价中的结果可以认定这个模型是个好模型
过拟合和欠拟合
结合上面的举例来看:
欠拟合是指:作业做不好、考试考不好、高考直接完蛋
过拟合是指:作业做得很完美(只会背)、考试成绩却不高、举一反三的能力差