![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
推荐系统
文章平均质量分 81
Sais_Z
这个作者很懒,什么都没留下…
展开
-
DeepFM
DeepFM简介具体结构代码简介DeepFM是2017年华为若亚方舟团队提出的一个将FM与DNN有效结合的模型,主要借鉴Google的Wide&Deep论文的思想并进行适当改进,将其中wide部分(logistic回归)换成FM与DNN进特征交叉。wide和deep部分共享原始输入特征向量,这让DeepFM可以直接从原始特征中同时学习低阶和高阶特征交叉,因此不像Wide&Deep模型那样,需要进行复杂的人工特征工程(logistic回归部分需要人工特征工程),同时训练效率会更高(Deep原创 2021-08-22 17:14:14 · 1055 阅读 · 0 评论 -
矩阵分解算法与因子分解机
矩阵分解算法核心思想应用场景优缺点核心思想矩阵分解的目的是通过机器学习的手段将用户行为矩阵中缺失的数据(用户没有评分的元素)填补完整,最终达到可以为用户做推荐的目标。在推荐系统中,用户操作行为可以转化为如下的用户行为矩阵。用户对标的物的操作行为矩阵矩阵分解算法是将用户评分矩阵分解为两个矩阵的乘积。其中U,代表的用户特征矩阵,V代表标的物特征矩阵。某个用户对某个标的物的评分,就可以采用矩阵U对应的行(该用户的特征向量)与矩阵V对应的列(该标的物的特征向量)的乘积。有了用户对标的物的评分就很容易为用原创 2021-08-22 13:35:48 · 1316 阅读 · 0 评论 -
Word2vec原理CBOW与Skip-Gram模型基础
Word2vecWord2vecCBOWSkip-GramWord2vec词向量最早的词向量是很冗长的,它使用是词向量维度大小为整个词汇表的大小,对于每个具体的词汇表中的词,将对应的位置置为1。这种词向量的编码方式我们一般叫做one hot representation.One hot用来表示词向量非常简单,但是却有很多问题。首先,它是一个词袋模型,不考虑词与词之间的顺序(文本中词的顺序信息也是很重要的);其次,它假设词与词相互独立(在大多数情况下,词与词是相互影响的);最后,它得到的特征转载 2021-08-22 00:04:14 · 848 阅读 · 0 评论 -
文本特征提取算法-TF-IDF
TF-IDF算法原理及其使用详解TF-IDFsklearn实现TF-IDFTF-IDF(Term Frequency-inverse Document Frequency)是一种针对关键词的统计分析方法。用于评估一个词对一个文件集或者一个语料库的重要程度。一个词的重要程度跟它在文章中出现的次数成正比,跟它在语料库出现的次数成反比。这种计算方式能有效避免常用词对关键词的影响,提高了关键词与文章之间的相关性。其中TF(Term Frequency)指的是某词在文章中出现的总次数,该指标通常会被归一化定义为原创 2021-08-21 14:04:28 · 1784 阅读 · 0 评论 -
推荐系统的Pipeline架构总结
推荐系统的Pipeline架构1. 召回非个性化范式完全个性化范式群组个性化范式标的物关联标的物范式笛卡尔积范式2. 排序logistic回归模型GBDT模型Wide & deep模型DeepFM模型3. 业务调控思考推荐的流程一般分为召回、排序、业务调控3个阶段,召回就是将用户可能会感兴趣的标的物通过算法从全量标的物库中取出来,一般会采用多个算法来召回,比如热门召回、协同过滤召回、标签召回等,排序阶段将召回阶段的标的物列表根据用户可能的点击概率大小排序(即所谓的CTR预估)。在实际业务中,在排序原创 2021-08-20 23:36:56 · 843 阅读 · 0 评论 -
相似度算法
相似度算法简单总结欧几里得距离皮尔逊相关系数最近开始研究推荐系统,其中常见的相似度算法有以下几种:欧几里得距离欧几里得比较常见,是一个通常采用的距离定义,指在m维空间中两个点之间的真实距离,或者向量的自然长度(即该点到原点的距离)。在二维和三维空间中的欧氏距离就是两点之间的实际距离。注意事项:a.因为计算是基于各维度特征的绝对数值,所以欧氏度量需要保证各维度指标在相同的刻度级别,比如对身高(cm)和体重(kg)两个单位不同的指标使用欧式距离可能使结果失效。b.欧几里得距离是数据上的直观体现,看似原创 2021-07-09 19:51:06 · 551 阅读 · 0 评论