一、基本思想
① 根据用户和物品的特征,给用户推荐那些具有用户喜欢的特征的物品
② 利用用户喜欢过的物品,给用户推荐与他喜欢过的物品相似的物品
③ 利用和用户相似的其他用户,给用户推荐那些和他们兴趣爱好相似的其他用户喜欢的物品
二、推荐系统数据分析
协同过滤 用到的是行为数据 实际上是用户和物品相关联的数据
三、协同过滤
基于内容(Content based,CB)主要利用的是用户评价过的物品的内容特征,而CF方法还可以利用其他用户评分过的物品内容
- CF在物品不完全或难以获得时,依然可以通过其他用户的反馈给出推荐
- CF基于用户之间对于物品的评价质量,避免了CB仅依赖内容可能造成的对物品质量判断的干扰
- CF推荐不受内容限制,只要其他类似用户给出对不同物品的兴趣,CF就可以给用户推荐出内容差异很大的物品(但有某种内在联系)
CF分为两类: 基于近邻和基于模型
基于近邻:
四、推荐系统评测
推荐系统实验方法:
离线实验
- 通过体制系统获得用户行为数据,并按照一定格式生成一个标准的数据集
- 将数据集按照一定的规则分成训练集和测试集
- 在训练集上训练用户兴趣模型,在测试集上进行预测
- 通过事先定义的离线指标评测算法在测试集上的预测结果
用户调查
- 用户调查需要一些真实的用户,让他们在需要测试的推荐系统上完成一些任务;我们需要记录他们的行为,并让他回答一些问题,最后进行分析
在线试验
- AB测试
把推荐系统分成两部分,根据一定规则把用户随机分成两组,推荐系统也是两套,配合分流系统,把用户导流到不同的推荐系统中,在线搜集用户的行为数据,统计不同的评测指标,来统计考查不同的两组推荐系统。
评测指标:
预测准确度 用户满意度 覆盖率 多样性 惊喜度 信任度 实时性 健壮性 商业目标
推荐准确度评测
评分预测
注:T 评分的个数 rui是每个用户对每个物品的真实评分 第二个是预测评分 一减就是预测非误差
true positive(被正确分类的正例)
false negative(本来是正例,错分为负例)
true negative(被正确分类的负例)
false positive(本来是负例,被错分为整理)
记忆方法,前边T\F是分类正确或者错误,后面的P\N是结果被分成是正例或负例
五、数学基础
六、机器学习
1、机器怎么学习
- 处理某个特定的任务,以大量的经验为基础
- 对任务完成的好坏,给予一定的评判标准
- 通过分析经验数据,任务完成的更好了
2、机器学习定义
3、机器学习过程
海量数据 ---> 提炼规律 ---> 预测未来
4、机器学习主要分类
有监督学习: 提供数据并提供数据对应结果的机器学习过程
无监督学习: 提供数据并且不提供数据对应结果的机器学习过程
强化学习: 通过与环境交互并获取延迟返回进而改进行为的学习过程
5、监督学习三要素:
模型: 总结数据的内在规律,用数学函数描述的系统
策略: 选取最有模型的评价准则
算法: 选取最优模型的具体方法
6、模型评估策略
模型评估:
- 训练集和测试集
(训练集:输入到模型中对模型进行训练的数据集合,用来测试模型好坏的集合)
(测试集:模型训练完成后对测试训练效果的数据集合)
- 损失函数和经验风险
- 训练误差和测试误差
模型选择
- 过拟合和欠拟合
- 正则化和交叉验证
注:梯度下降不一定能够找到全局的最优解,有可能是一个局部最优解,如果损失函数是凸函数,梯度下降算法得到的解就一定是全局最优解
监督学习->回归模型
线性回归模型:
一元线性回归
多元线性回归
非线性回归模型
最小二乘法
作为模型评估策略
实际应用 多元线性回归
如果有两个或两个以上的自变量,这样的线性回归分析就称为多元线性回归
分类模型:k近邻 逻辑斯谛回归 决策树
希望的损失函数