推荐算法
有监督学习
有监督学习(supervised learning)算法构建了包括输入和输出的一组数据的数学模型。这些数据称为训练数据,由一组训练样本组成。
监督学习主要包括分类和回归。当输出被限制为有限的一组值(离散数值)时使用分类算法;当输出可以具有范围内的任何数值(连续数值)时使用回归算法。
相似度学习是和回归和分类都密切相关的一类监督学习,它的目的是使用相似性函数从样本中学习,这个函数可以度量两个对象之间的相似度或关联度。它在排名、推荐系统、视觉识别跟踪、人脸识别等方面有很好的应用场景。
(逻辑回归是分类算法)
监督学习三要素:
模型:总结数据的内在规律,用数学函数描述的系统
策略:选取最优模型的评价准则
算法:选取最优模型的具体方法
监督学习实现步骤:
得到一个有限的训练数据集
确定包含所有学习模型的集合
确定模型选择的准则,也就是学习策略
确定求解最优模型的算法,也就是学习算法
通过学习算法选择最优模型
利用得到的最优模型,对新数据进行预测和分析
模型评估策略
模型评估
-训练集和测试集
训练集:用来训练模型的数据称为训练集;输入到模型中对模型进行训练的数据集合。
测试集:用来测试模型好坏的集合称为测试集;模型训练完成后训练效果的数据集合。
-损失函数和经验风险
损失函数:用来衡量模型预测误差的大小。
常见损失函数:
经验风险:
-训练误差和测试误差
模型选择
-过拟合和欠拟合
-正则化和交叉验证