机器学习定义
If the system reliably improves its performance P at task T, following experience E.
针对任务T,性能 P 随着经验 E 而不断增加
机器学习项目开发流程
术语
数据集类型:表格数据、文本、图像等
特征、属性、维度;标签
训练集:被学习的数据
测试集:用来评估学习效果的数据
泛化: 一个机器学习模型能够对没见过的数据做出准确判断
过拟合:训练集上表现良好但不能泛化到新数据集上
欠拟合:在训练集上模型就表现很差
损失函数:单样本的模型计算结果与实际值的差异程度。损失函数越小,模型越好
成本函数( 代价函数):度量全部样本集的平均误差,成本函数越小,模型训练效果越好
机器学习方法分类
基于数据集是否有标记的分类
监督学习、无监督学习、半监督学习、强化学习