多路召回理解

最新推荐文章于 2024-06-30 20:55:52 发布

容光@October

最新推荐文章于 2024-06-30 20:55:52 发布

阅读量1.3k

点赞数 1

分类专栏：推荐系统文章标签： python 深度学习

本文链接：https://blog.csdn.net/m0_49978528/article/details/110405603

版权

本文介绍了多路召回策略在推荐系统中的使用，通过多种召回方式组合提高候选集质量。涉及到的内容包括数据读取、时间戳归一化、用户点击序列获取、文章属性信息、Embedding数据处理、采样、全量数据处理、召回率评估等。同时，提到了Python库如pandas、faiss在处理过程中的应用，并提供了部分代码示例。

摘要由CSDN通过智能技术生成

“多路召回”策略指采用不同的策略、特征或简单模型，分别召回一部分候选集，然后把候选集混合在一起供后续排序模型使用，可以明显的看出，“多路召回策略”是在“计算速度”和“召回率”之间进行权衡的结果。
使用多种不同的策略来获取用户排序的候选商品集合，而具体使用哪些召回策略其实是与业务强相关的，针对不同的任务就会有对于该业务真实场景下需要考虑的召回规则。例如新闻推荐，召回规则可以是“热门视频”、“导演召回”、“演员召回”、“最近上映“、”流行趋势“、”类型召回“等等。
import pandas as pd
import numpy as np
from tqdm import tqdm
from collections import defaultdict
import os, math, warnings, math, pickle
from tqdm import tqdm
import faiss
import collections
import random
from sklearn.preprocessing import MinMaxScaler
from sklearn.preprocessing import LabelEncoder
from datetime import datetime
from deepctr.feature_column import SparseFeat, VarLenSparseFeat
from sklearn.preprocessing import LabelEncoder
from tensorflow.python.keras import backend as K
from tensorflow.python.keras.models import Model
from tensorflow.python.keras.preprocessing.sequence import pad_sequences

from deepmatch.models import *
from deepmatch.utils import sampledsoftmaxloss
warnings.filterwarnings(‘ignore’)
data_path = ‘./data_raw/’
save_path = ‘./temp_results/’

做召回评估的一个标志, 如果不进行评估就是直接使用全量数据进行召回

metric_recall = False
读取数据

Debug模式：这个的目的是帮助我们基于数据先搭建一个简易的baseline并跑通，保证写的baseline代码没有什么问题。由于推荐比赛的数据往往非常巨大，如果一上来直接采用全部的数据进行分析，搭建baseline框架，往往会带来时间和设备上的损耗，所以这时候我们往往需要从海量数据的训练集中随机抽取一部分样本来进行调试(train_click_log_sample)，先跑通一个baseline。
线下验证模式：这个的目的是帮助我们在线下基于已有的训练集数据，来选择好合适的模型和一些超参数。所以我们这一块只需要加载整个训练集(train_click_log)，然后把整个训练集再分成训练集和验证集。训练集是模型的训练数据，验证集部分帮助我们调整模型的参数和其他的一些超参数。
线上模式：我们用debug模式搭建起一个推荐系统比赛的baseline，用线下验证模式选择好了模型和一些超参数，这一部分就是真正的对于给定的测试集进行预测，提交到线上，所以这一块使用的训练数据集是全量的数据集(train_click_log+test_click_log)

debug模式：从训练集中划出一部分数据来调试代码

def get_all_click_sample(data_path, sample_nums=10000):
“”"
训练集中采样一部分数据调试
data_path: 原数据的存储路径
sample_nums: 采样数目（这里由于机器的内存限制，可以采样用户做）
“”"
all_click = pd.read_csv(data_path + ‘train_click_log.csv’)
all_user_ids = all_click.user_id.unique()

sample_user_ids = np.random.choice(all_user_ids, size=sample_nums, replace=False) 
all_click = all_click[all_click['user_id'].isin(sample_user_ids)]

all_click = all_click.drop_duplicates((['user_id', 'click_article_id', 'click_timestamp']))
return all_click

读取点击数据，这里分成线上和线下，如果是为了获取线上提交结果应该讲测试集中的点击数据合并到总的数据中

如果是为了线下验证模型的有效性或者特征的有效性，可以只使用训练集

def get_all_click_df(data_path=’./data_raw/’, offline=True):
if offline:
all_click = pd.read_csv(data_path + ‘tra

最低0.47元/天解锁文章

容光@October

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
多路召回理解

“多路召回”策略指采用不同的策略、特征或简单模型，分别召回一部分候选集，然后把候选集混合在一起供后续排序模型使用，可以明显的看出，“多路召回策略”是在“计算速度”和“召回率”之间进行权衡的结果。使用多种不同的策略来获取用户排序的候选商品集合，而具体使用哪些召回策略其实是与业务强相关的，针对不同的任务就会有对于该业务真实场景下需要考虑的召回规则。例如新闻推荐，召回规则可以是“热门视频”、“导演召回”、“演员召回”、“最近上映“、”流行趋势“、”类型召回“等等。import pandas as pdim
复制链接

扫一扫