- 博客(10)
- 资源 (9)
- 收藏
- 关注
原创 Wide&Deep/DeepFM
基于DNN的推荐算法引入背景推荐系统的一大挑战是同时具备”记忆能力“和”泛化能力“。”记忆能力“:学习那些经常同时出现的特征,发觉历史数据中存在的共现特性。”泛化能力“:基于迁移相关性,探索之前几乎没出现过的新特征组合。基于嵌入的模型(FM)对之前没出现过的特征具备二阶泛化能力,即为每个query和item特征学习一个低维稠密的嵌入向量。但FM很难有效学习低维表示,当query-item矩...
2019-04-20 18:13:53 1283
原创 FM/FFM
FM背景及相关算法对比(1)FM(factorization machine)是在LR(logistic regression)基础上,加入了特征的二阶组合项;(2)SVM和FM的主要区别在于,SVM的二元特征交叉参数是独立的,如wijw_{ij}wij,而FM的二元特征交叉参数是两个k维的向量vi、vjv_i、v_jvi、vj,即<vi,vj><...
2019-04-20 16:11:37 761
原创 Tensorflow之softmax_v.s._sigmoid
多分类softmax激活函数 & 二分类sigmoid激活函数(1)多分类:样本属于第kkk个类别(总共KKK个类别)的概率Sk=exk∑i=1KexiS_k=\frac{e^{x_k}}{\sum\limits_{i=1}^K e^{x_i}}Sk=i=1∑Kexiexk其中xkx_kxk是样本经过隐层线性组合后的结果。(2)二分类:样本属于正类1(正类1、负类0)的...
2019-04-18 17:59:57 314
原创 GBDT+LR
用GBDT构造组合特征的原理【1】 首先,用GBDT对原始训练数据做训练,得到一个二分类器,利用网格搜索寻找最佳参数组合。【2】GBDT训练好做预测的时候,把模型中的每棵树计算得到的/预测概率值所属的叶子结点位置记为1,这样,就针对每个样本行/构造出了新的训练数据。【3】新的训练数据构造完后,与原始训练数据中的label(输出)数据一并输入到Logistic Regression分类器中进行...
2019-04-18 17:58:52 527
原创 LFM/funk-SVD
隐语义模型(LFM)通过隐含特征(latent factor)联系用户兴趣和物品。比如给用户推荐图书的场景,隐含特征可以是图书的类别。通过降维的方法补全评分矩阵。算法理论用户uuu对物品iii的兴趣rui=puTqi=∑k=1Kpu,kqi,kr_{ui}=p^T_u q_i=\sum\limits_{k=1}^K p_{u,k}q_{i,k}rui=puTqi=k=1∑Kpu,k...
2019-04-18 17:58:00 913
原创 user-based CF
user-based CF当一个用户A需要个性化推荐时,先找到"和A有相似兴趣的其他用户",然后把"这些用户喜欢&A没听过的物品"推荐给A。算法步骤(1)找到和目标用户兴趣相似的用户集合(2)找到这个集合中的用户喜欢的&目标用户没听说过的物品推荐给目标用户wuv=∣N(u)∩N(v)∣∣N(u)∪N(v)∣,wuv=∣N(u)∩N(v)∣∣N(u)∣∣N(v)∣w_{uv...
2019-04-18 17:55:05 965
原创 item-based CF
item-based CF给用户推荐那些和他们之前喜欢的物品相似的物品。item-based CF并不是利用物品的内容属性计算物品之间的相似度,主要是通过分析用户的行为记录计算物品间的相似度。算法步骤(1)计算物品之间的相似度(2)根据物品的相似度和用户的历史行为,给用户生成推荐列表wij=∣N(i)∩N(j)∣∣N(i)∣w_{ij}=\frac{|N(i)\cap N(j)|}{|N...
2019-04-18 17:49:44 1363 1
原创 推荐系统常见问题
(一)哈利波特问题问题:购买任何一本书的人似乎都会购买《哈利波特》,因为《哈利波特》太热门了,确实是购买任何一本书的人几乎都会购买它。解决方案:(1)在item-based CF的相似度计算公式的分母上,加大对热门物品的惩罚wij=∣N(i)∩N(j)∣∣N(i)∣1−α∣N(j)∣αw_{ij}=\frac{|N(i)\cap N(j)|}{|N(i)|^{1-\alpha}|N(j)|...
2019-04-18 17:46:35 2500
原创 推荐系统简介
推荐系统存在的前提(1)信息过载;(2)用户需求不明确推荐系统的目标连接用户和物品,发现长尾商品;留住用户和内容生产者,实现商业目标推荐系统的应用领域新闻资讯推荐;短视频推荐;商品推荐推荐系统的评估用户——满足需求内容提供方——获取长尾流量,获得互动和认可网站——留住用户,实现商业目标评估指标准确性;满意度;覆盖率;多样性;新颖性;惊喜度;信任度;实时性;鲁棒性;可扩展性;商...
2019-04-18 17:45:00 516
原创 NLP框架
什么是自然语言处理?语言模型语料库和语言知识库词法分析句法分析语义分析词向量文本分类机器翻译信息抽取篇章分析问答系统什么是自然语言处理?计算机可以根据人类语言建模成计算机可以理解的信息,并且可以将这些信息利用起来,实现一个有用的系统。###语言模型(Bi-Gram/Tri-Gram/N-Gram)频率派:统计不同词汇出现频率,从而知道某个词汇之后出现下一个词的概率。放...
2019-04-01 18:15:36 2851
test_ctr.zip
2020-05-29
underexpose_train.zip
2020-05-29
tfrecord数据.zip
2020-05-17
word2vec.zip
2019-09-19
README.md文档
2019-08-19
cnews.zip 新浪新闻RSS订阅频道10类文本数据
2019-07-17
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人