1.机器学习
定义:如果机器通过经验E在任务T上提升了指标P,那么称机器对E进行了学习。
术语:学习过程=训练过程,n维属性=n个特征=输入变量=x,标签=目标变量=输出向量=y,算法=模型=映射
一组样本=数据集,样本是独立同分布的,一个数据集应划分为训练集和测试集。
1个实例=1个样本(sample)=1组特征值+对应标签。
例如鸢尾花分类任务,有4个特征(萼片长度,萼片宽度,花瓣长度,花瓣宽度),标签类型有3种('setosa', 'versicolor', 'virginica'),那么其中一个样本可以为(4.1,3.2,1.4,0.2;'virginica')
1. 连续型数据一般用于回归任务,离散型数据一般用于分类任务
2.训练的目的是用训练集来拟合一个最佳算法f,使得y=f(x,θ),其中θ为算法可以学习的参数,概率模型通常拟合的是p(y|x)=f(x,θ),用于预测