机器学习的目的:拟合模型 不是 推导模型 确定模型的东西不需要机器学习
特征属性:长宽高;标签属性:好坏
机器学习得到的模型,本质上是得到从特征属性x到标签y的映射f:y=f(x,w)。预测标签与真实标签进行比较,以评判预测效果。评价模型好坏时必须使用新样本,模型预测新样本的能力称为泛化性能。评价一个模型泛化性能时采用的样本集称为测试集。
机器学习中的优化难题:
如何获得最优参数w,使模型f的泛化性能最好?
1.泛化性能与训练数据集密切相关(各种各样的西瓜,多种与任务相关的属性)
2函数形式(神经网络和支持向量机)
3.过拟合--对训练集有很好的拟合效果,对测试集拟合效果一般
噪声也学为样本的固有模式,一般采用正则化来缓解过拟合
欠拟合-模型训练容量太低
Numpy是python开源数值计算库,存储和处理大型矩阵很方便。