推荐算法
cuixuange
https://github.com/cuixuage
展开
-
推荐系统实践-评价方法-阅读笔记1
评价方法 1.离线实验 通过日志获取用户的行为数据=>作为训练测试集 离线的评价指标=>预测准确率 缺点: 无法关注商业指标,点击率转化率 2.在线A/Btest 如何分桶分层? 3.评价指标 3.1 用户评价(e.g. 实际购买率 ctr等等) 3.2 预测准确度(离线实验 大部分的论文使用的评价指标) 3.3 评分预测 基于历史的评分,预测用户的评分(RMSE均方误差 MAE) p...原创 2019-02-25 20:15:00 · 187 阅读 · 0 评论 -
kaggle kernel 学习笔记
学习链接 https://www.kaggle.com/learn/intermediate-machine-learning 3.Missing Values 1.drop columns # Get names of columns with missing values cols_with_missing = [col for col in X_train.columns if X_trai...原创 2019-05-12 22:26:49 · 1641 阅读 · 0 评论 -
FM初步理解&代码实现
0.Reference 美团FFM: https://tech.meituan.com/2016/03/03/deep-understanding-of-ffm-principles-and-practices.html CMUpdf: http://www.cs.cmu.edu/~wcohen/10-605/2015-guest-lecture/FM.pdf CSDN: http://www.5...原创 2019-05-02 16:39:28 · 2127 阅读 · 0 评论 -
GBDT输出形式理解
0.训练过程 "放大"错误样本,基学习器的个数==训练的迭代次数 1.输出形式 二分类: 每个基学习器输出one-hot向量(长度==num_leaves) one-hot to int prediction = num_boost_iteration个整数(每个整数是来自一个基学习器的输出) 思考: 多分类 || 回归 GBDT的树的输出还是one-hot吗?? 2.FM 输入:libsvm格式...原创 2019-04-14 15:01:41 · 2548 阅读 · 0 评论 -
GBDT+LR
0. 基础准备 论文: Practical Lessons from Predicting Clicks on Ads at Facebook 参考资料: https://github.com/aragorn/home/wiki/Study-:-Practical-Lessons-from-Predicting-Clicks-on-Ads-at-Facebook https://zhuanlan....原创 2019-04-20 17:18:21 · 731 阅读 · 0 评论 -
word2vec之skip-gram算法原理
skip-gram算法原理 1.input,output,target input的某个单词的one-hot编码(11000 词汇量的总数目) output其他所有单词的概率(softmax 输出也是11000) target是相近单词的one-hot形式 2.Loss target和output的矩阵的交叉熵最小 or 平方差最小 3.NNet 3.1 隐层 300个神经元,需要训练的权重矩阵...原创 2019-03-31 15:24:23 · 633 阅读 · 0 评论 -
推荐系统实践-阅读笔记5
#三.冷启动问题 1.简介 2.利用用户注册信息 3.选择合适的物品 (用户注册后让其自主选择类别) 选择区分度大的物品 P105 评价区分度 4.利用物品的内容信息 5.发挥专家作用 #四.利用用户标签数据 UGC标签 user generated content 1.用户如何打标签 e.g. 给定若干类型,时间,人物,地点,语言… 2.基于标签的推荐系统 e.g. 三元组信息(U,i,lab...原创 2019-02-25 20:18:33 · 331 阅读 · 0 评论 -
推荐系统实践-阅读笔记4
一. 隐语义模型 latent factor model 算法理论 对于某个用户,首先得到他的兴趣分类,再从分类中挑选他可能喜欢的物品 基于用户行为的自动聚类 P83 迭代优化P Q两个参数 (负样本采集问题: 热门商品却没有被用户喜欢的商品作为该用户的负样本) 重要的参数有: 1.隐藏的特征个数F 2.学习速率alpha 3.正则化参数lamba 4.负样本/正样本比例ratio 缺点: ...原创 2019-02-25 20:17:53 · 131 阅读 · 0 评论 -
推荐系统实践-基于邻域算法-阅读笔记3
#2.基于邻域的推荐算法 #2.1 User-CF算法 1.计算用户之间的相似度,得到目标用户的兴趣相似的集合 2.从这个集合中选取目标用户没有使用的物品作为推荐 流程 计算用户的相似度 余弦相似度 1.建立物品-用户的倒排索引表,通过将此表每个物品的对应用户"两两标记" 2.关于所有用户的相似度矩阵C 定义: 定义: 目标用户u对于新物品i的感兴趣程度: 和自己最类似的K个用户对于物品i的评分之...原创 2019-02-25 20:16:52 · 487 阅读 · 0 评论 -
推荐系统实践-用户行为数据-阅读笔记2
#用户行为数据简介 基于用户行为的推荐算法 ==> 协同过滤算法 用户和网站不断地互动,使得推荐列表过滤掉不感兴趣的物品 显性反馈 + 隐形反馈 用户行为的表格 举例: user id item id (行为对象) behavior type (e.g. 购买or浏览) context (e.g. 时间&地点) behavior weight (e.g.观看视频的时长...原创 2019-02-25 20:16:17 · 258 阅读 · 0 评论 -
gbdt,xgb,lgb总结
最近学习了gradient boost+Decision Tree的原理;xgboost,lightgbm论文原文。有一些收获,gbdt总结的笔记比较多 就没放上来。主要看下xgb,lgb的时间复杂度 & 部分总结点 1.时间复杂度对比 2.gbdt一阶导数 & xgb二阶导数 3.exact greedy algorihtm(pre-sort) 4.approximately a...原创 2019-06-24 10:21:26 · 2442 阅读 · 0 评论