推荐系统
Last 炫神
这个作者很懒,什么都没留下…
展开
-
古诗推荐服务
项目地址项目地址 https://github.com/Liangzhuoxuan/PoemRS推荐服务架构设计使用基于大数据的推荐架构基于 Hadoop 的数据存储基于 Spark 的数据预处理和特征工程(离线层)基于 Hive 的数据管理基于 Flume + Spark-Streaming + Redis 的数据采集及传输(在线层)...原创 2020-11-21 11:09:30 · 317 阅读 · 0 评论 -
使用Word2Vec完成基于文本相似度的推荐
使用 Word2Vec 完成基于文本相似度的推荐之前的基于文本相似度的推荐使用的是one-hot的词向量,虽然可以使用稀疏向量来存储里面的非0值,但是以这种形式的词向量存在很多问题:稀疏的向量表达效率是不高的,需要降低词向量的维度难以发现词之间的关系,以及难以捕捉句子结构和语义之间的关系使用 Word2Vec 可以得到每个词对应的词向量,它是一个稠密向量,每一维的浮点数的数值大小,表示...原创 2020-11-21 10:59:04 · 1029 阅读 · 1 评论 -
Flume 对接 Spark-Streaming
用 Flume 收集实时点击日志,以 Http 请求的形式 Post Json 数据,传入 Flume,通过 SparkStreaming 对数据进行处理,此处 SparkStreaming 于 Flume 对接的方式是 Push,所以启动顺序是先启动 SparkStreaming 再 启动 Flume添加依赖到 Maven<?xml version="1.0" encoding="UT...原创 2020-02-29 22:44:47 · 382 阅读 · 1 评论 -
Pytorch 实现逻辑回归
因为项目的原因,要使用逻辑回归进行CTR预估,可以进行权重实时更新,并且对每个用户要使用提前计算好的权重初始化模型(自定义模型权重参数),在sklearn没有找到这个功能,所以自己写一个,顺便练习一下神经网络的写法步骤:定义模型前向求损失反向求梯度利用梯度更新模型权重代码:import torchfrom torch import nnfrom torch.autograd ...原创 2020-02-16 12:38:25 · 516 阅读 · 0 评论 -
sklearn 模型在线学习、增量更新实现 (以SGD方式训练LR为例)
sklearn online learning在 sklearn官方文档里以 online 为关键字进行检索在线学习是可以通过小批量的数据迭代更新模型的权重,增量训练方法看 partial_fit,于是检索了一下 partial_fit,介绍如下:不同与使用fit方法,partial_fit 方法不需要清空模型(不用清空模型原来就学习好的权重),只需要每次用小批量的数据进行 partia...原创 2020-02-13 17:35:30 · 7066 阅读 · 5 评论 -
FM 模型推导
FM 模型推导论文地址:https://www.csie.ntu.edu.tw/~b97053/paper/Rendle2010FM.pdf在使用 LR 的时候,要进行大量的特征工程,如对离散值进行独热编码,在进行大量的独热编码之后,特征矩阵会变得非常稀疏。在特征创建的时候,两两特征进行组合,由于特征向量过于稀疏,无法学习到很多组合特征的权重,FM 模型在 LR 模型的基础上,多了特征两两组合...原创 2020-02-08 12:06:25 · 426 阅读 · 0 评论 -
隐语义模型 LFM 推导
文章目录算法应用场景问题分析算法推导推导损失函数求解损失函数梯度下降法交替最小二乘法开源库算法应用场景在推荐系统中,要根据用户的历史行为(点击、收藏、评分等),挖掘用户感兴趣的物品进行推荐(一般用作推荐系统里面的召回算法,来召回候选集)。这个问题就可以转换成:给定 用户-物品 的评分矩阵(稀疏矩阵),根据评分矩阵里面已有的评分,预测评分矩阵里面空缺的评分,然后对于每个用户,为其对应的物品向量的...原创 2020-02-04 18:49:35 · 486 阅读 · 0 评论 -
pyspark mllib ALS 实践
数据集 https://tianchi.aliyun.com/dataset/dataDetail?dataId=56基于 ALS 的 LFM 算法进行候选集召回# 从用户行为日志数据集behavior_log 7亿 条数据中选取 100万 条import pandas as pdimport warningswarnings.filterwarnings("ignore")pat...原创 2020-02-04 14:44:32 · 597 阅读 · 0 评论 -
Spark Preprocessing&FE practice
最近因为要做推荐系统 ,为了熟悉 pyspark 的操作,并且熟悉一下处理日志数据 , 故尝试处理此数据集数据集介绍Ali_Display_Ad_Click是阿里巴巴提供的一个淘宝展示广告点击率预估数据集。 下载地址 https://tianchi.aliyun.com/dataset/dataDetail?dataId=56 ,数据名称说明属性...原创 2020-02-04 14:38:28 · 322 阅读 · 0 评论 -
基于 TF-IDF 计算古诗之间的文本相似度
步骤对每一篇古诗进行分词计算每一个词的 tfidf 值利用每篇文章的词向量计算余弦相似度import pandas as pdimport numpy as npimport picklepath = 'F:/1.csv'df = pd.read_csv(path)df.head() _id 标题 诗...原创 2020-01-22 18:21:14 · 814 阅读 · 0 评论 -
基于用户的协同过滤算法UserCF实现
思想:以其他用户为媒介,寻找和要评估用户相似的用户,给他推荐其他用户已评价但是他未评价过的物品步骤:根据用户对物品的评价信息构建 物品-用户表构建用户相似度矩阵计算用户相似度评估某用户对其未评分物品的可能评分import numpy as npimport pandas as pdfrom copy import deepcopyimport threading# 实际应...原创 2019-11-20 21:15:03 · 317 阅读 · 0 评论