Python机器学习实践笔记(1)
1.机器学习系统
1.1 特点
- 泛化力 :对未知的预测能力
- 性能:不断完善自身应对具体任务的能力
2. 关键性术语:任务、经验、性能
2.1 任务
- 监督学习:分类与回归
- 无监督学习:数据降维和聚类
数据降维是对事物的特性进行压缩和筛选,即选出最有效的信息;
聚类是指把相似的样本划分为一个簇,注意与分类的区别在于事先我们不知道每个簇的标签
2.2 经验
- 通常将数据视作经验;
- 特征:反映数据内在规律的信息
- 特征向量(Feature Vector):描述数据样本
- 数据类型:类别型特征、数值型特征、缺失数据
2.3 性能
- 测试集:将模型预测结果与正确结果进行比对(不能被用于模型训练)
- 准确性:百分比/偏差大小