推荐系统
Thinkobj
这个作者很懒,什么都没留下…
展开
-
天池新闻推荐入门赛之排序模型+模型融合
排序模型 通过召回的操作, 我们已经进行了问题规模的缩减, 对于每个用户, 选择出了N篇文章作为了候选集,并基于召回的候选集构建了与用户历史相关的特征,以及用户本身的属性特征,文章本省的属性特征,以及用户与文章之间的特征,下面就是使用机器学习模型来对构造好的特征进行学习,然后对测试集进行预测,得到测试集中的每个候选集用户点击的概率,返回点击概率最大的topk个文章,作为最终的结果。 排序阶段选择了三个比较有代表性的排序模型,它们分别是: LGB的排序模型 LGB的分类模型 深度学习的分类模型DIN 得到了最原创 2020-12-06 23:22:02 · 160 阅读 · 0 评论 -
天池新闻推荐入门赛之特征工程
特征工程(制作特征和标签, 转成监督学习问题) 构造特征的思路是这样, 我们知道每个用户的点击文章是与其历史点击的文章信息是有很大关联的, 比如同一个主题, 相似等等。 所以特征构造这块很重要的一系列特征是要结合用户的历史点击文章信息。我们已经得到了每个用户及点击候选文章的两列的一个数据集, 而我们的目的是要预测最后一次点击的文章, 比较自然的一个思路就是和其最后几次点击的文章产生关系, 这样既考虑了其历史点击文章信息, 又得离最后一次点击较近,因为新闻很大的一个特点就是注重时效性。 往往用户的最后一次点击原创 2020-12-03 19:04:01 · 101 阅读 · 0 评论 -
天池新闻推荐入门赛之多路召回
多路召回 所谓的“多路召回”策略,就是指采用不同的策略、特征或简单模型,分别召回一部分候选集,然后把候选集混合在一起供后续排序模型使用,可以明显的看出,“多路召回策略”是在“计算速度”和“召回率”之间进行权衡的结果。 import pandas as pd import numpy as np from tqdm import tqdm from collections import defaultdict import os, math, warnings, math, pickle from原创 2020-11-30 20:06:13 · 283 阅读 · 0 评论 -
天池新闻推荐入门赛之数据分析
训练集数据分析 # 导入相关包 import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns plt.rc('font', family='SimHei', size=13) import os import gc import re import warnings import sys warnings.filterwarnings("ignore") path = './da原创 2020-11-27 23:52:04 · 122 阅读 · 0 评论 -
天池新闻推荐入门赛之赛题理解+Baseline
零基础入门推荐系统【赛题理解+Baseline】 赛题简介 赛题是以新闻APP中的新闻推荐为背景, 目的是要求我们根据用户历史浏览点击新闻文章的数据信息预测用户未来的点击行为, 即用户的最后一次点击的新闻文章, 这道赛题的设计初衷是引导大家了解推荐系统中的一些业务背景, 解决实际问题 数据概况 该数据来自某新闻APP平台的用户交互数据,包括30万用户,近300万次点击,共36万多篇不同的新闻文章,同时每篇新闻文章有对应的embedding向量表示。为了保证比赛的公平性,从中抽取20万用户的点击日志数据作为训原创 2020-11-25 20:14:38 · 215 阅读 · 0 评论