- 数据集的名称: 鸢尾花的数据集
机器学习数据集的掌握
- 什么样的数据集
- 数据集的行——样本
- 数据集的列——特征
- 特征组成的空间——特征或属性空间
- 组成属性空间的点——特征或属性向量
- 将数据分成测试集或者训练集
- 使用训练集加算法解决问题
- 误差进行校验结果分析
- 对于非数值的要进行数值转换
- 如何对二分类进行分类
- 绝对值误差函数
- 平方误差函数
- 训练误差
- 泛化误差
- 性能举证
- Accuracy 准确率
- Precsition准确率
- FRR假正率
- Recall=Tpr真正率或召回率
- ROC曲线的AUC指标
机器学习的基本概念
- 布尔函数
- C(X)=1,享受运动;C(X)=0,不享受运动,类别便签列
- X样例,所有实例的结合——分类
- 房价的举例——回归
- 机器学习的步骤
- 把数据切换成训练集和测试集
- 用训练集的特征向量来训练算法
- 把学习用来的算法在测试集里评价算法
机器分类详解
- 监督学习和无监督学习的区别
- 监督问题:是否具有连续值得的预测
- 分类
- 回归
- 无监督问题:
- 聚类:特征之间的相似性
- 降维:通过机器学习的算法达到降维
- 监督问题:是否具有连续值得的预测
半监督学习
- 连续学习
- 迁移学习
- 迁移学习可以解决的问题:
- 主动学习:纯半监督学习