推荐算法
cuixuange
https://github.com/cuixuage
展开
-
推荐系统实践-评价方法-阅读笔记1
评价方法1.离线实验通过日志获取用户的行为数据=>作为训练测试集离线的评价指标=>预测准确率缺点: 无法关注商业指标,点击率转化率2.在线A/Btest如何分桶分层?3.评价指标3.1 用户评价(e.g. 实际购买率 ctr等等)3.2 预测准确度(离线实验 大部分的论文使用的评价指标)3.3 评分预测基于历史的评分,预测用户的评分(RMSE均方误差 MAE)p...原创 2019-02-25 20:15:00 · 186 阅读 · 0 评论 -
kaggle kernel 学习笔记
学习链接https://www.kaggle.com/learn/intermediate-machine-learning3.Missing Values1.drop columns# Get names of columns with missing valuescols_with_missing = [col for col in X_train.columns if X_trai...原创 2019-05-12 22:26:49 · 1635 阅读 · 0 评论 -
FM初步理解&代码实现
0.Reference美团FFM: https://tech.meituan.com/2016/03/03/deep-understanding-of-ffm-principles-and-practices.htmlCMUpdf: http://www.cs.cmu.edu/~wcohen/10-605/2015-guest-lecture/FM.pdfCSDN: http://www.5...原创 2019-05-02 16:39:28 · 2125 阅读 · 0 评论 -
GBDT输出形式理解
0.训练过程"放大"错误样本,基学习器的个数==训练的迭代次数1.输出形式二分类:每个基学习器输出one-hot向量(长度==num_leaves)one-hot to intprediction = num_boost_iteration个整数(每个整数是来自一个基学习器的输出)思考:多分类 || 回归GBDT的树的输出还是one-hot吗??2.FM输入:libsvm格式...原创 2019-04-14 15:01:41 · 2544 阅读 · 0 评论 -
GBDT+LR
0. 基础准备论文: Practical Lessons from Predicting Clicks on Ads at Facebook参考资料:https://github.com/aragorn/home/wiki/Study-:-Practical-Lessons-from-Predicting-Clicks-on-Ads-at-Facebookhttps://zhuanlan....原创 2019-04-20 17:18:21 · 726 阅读 · 0 评论 -
word2vec之skip-gram算法原理
skip-gram算法原理1.input,output,targetinput的某个单词的one-hot编码(11000 词汇量的总数目)output其他所有单词的概率(softmax 输出也是11000)target是相近单词的one-hot形式2.Losstarget和output的矩阵的交叉熵最小 or 平方差最小3.NNet3.1 隐层300个神经元,需要训练的权重矩阵...原创 2019-03-31 15:24:23 · 631 阅读 · 0 评论 -
推荐系统实践-阅读笔记5
#三.冷启动问题1.简介2.利用用户注册信息3.选择合适的物品 (用户注册后让其自主选择类别)选择区分度大的物品 P105 评价区分度4.利用物品的内容信息5.发挥专家作用#四.利用用户标签数据UGC标签 user generated content1.用户如何打标签e.g. 给定若干类型,时间,人物,地点,语言…2.基于标签的推荐系统e.g. 三元组信息(U,i,lab...原创 2019-02-25 20:18:33 · 323 阅读 · 0 评论 -
推荐系统实践-阅读笔记4
一. 隐语义模型latent factor model算法理论对于某个用户,首先得到他的兴趣分类,再从分类中挑选他可能喜欢的物品基于用户行为的自动聚类P83 迭代优化P Q两个参数(负样本采集问题: 热门商品却没有被用户喜欢的商品作为该用户的负样本)重要的参数有:1.隐藏的特征个数F2.学习速率alpha3.正则化参数lamba4.负样本/正样本比例ratio缺点:...原创 2019-02-25 20:17:53 · 130 阅读 · 0 评论 -
推荐系统实践-基于邻域算法-阅读笔记3
#2.基于邻域的推荐算法#2.1 User-CF算法1.计算用户之间的相似度,得到目标用户的兴趣相似的集合2.从这个集合中选取目标用户没有使用的物品作为推荐流程计算用户的相似度 余弦相似度1.建立物品-用户的倒排索引表,通过将此表每个物品的对应用户"两两标记"2.关于所有用户的相似度矩阵C定义:定义: 目标用户u对于新物品i的感兴趣程度: 和自己最类似的K个用户对于物品i的评分之...原创 2019-02-25 20:16:52 · 482 阅读 · 0 评论 -
推荐系统实践-用户行为数据-阅读笔记2
#用户行为数据简介基于用户行为的推荐算法 ==> 协同过滤算法用户和网站不断地互动,使得推荐列表过滤掉不感兴趣的物品显性反馈 + 隐形反馈用户行为的表格 举例:user iditem id (行为对象)behavior type (e.g. 购买or浏览)context (e.g. 时间&地点)behavior weight (e.g.观看视频的时长...原创 2019-02-25 20:16:17 · 257 阅读 · 0 评论 -
gbdt,xgb,lgb总结
最近学习了gradient boost+Decision Tree的原理;xgboost,lightgbm论文原文。有一些收获,gbdt总结的笔记比较多 就没放上来。主要看下xgb,lgb的时间复杂度 & 部分总结点1.时间复杂度对比2.gbdt一阶导数 & xgb二阶导数3.exact greedy algorihtm(pre-sort)4.approximately a...原创 2019-06-24 10:21:26 · 2438 阅读 · 0 评论