kdd 2020 常用分析代码

最新推荐文章于 2021-06-14 21:14:03 发布

猫爱吃鱼the

最新推荐文章于 2021-06-14 21:14:03 发布

阅读量680

点赞数

分类专栏：推荐系统

本文链接：https://blog.csdn.net/qq_39783265/article/details/105587678

版权

推荐系统专栏收录该内容

0 篇文章 0 订阅

订阅专栏

user_col = 'user_id'
item_col = 'item_id'
user_item_ = click_test.groupby(user_col)[item_col].agg(set)

在这里插入图片描述

a = pd.DataFrame({'a':[1,2,3],'b':[4,5,6]})
print(a)
dict(zip(a['a'],a['b']))

在这里插入图片描述

常用NLP分析

model.wv.vocab

计算与当前词距离最近的词，即原版本中的distance方法

model.most_similar(["boy"], topn=3)
# or
model.most_similar("boy", topn=3)

#[('girl', 0.7218124270439148), ('kid', 0.6669290065765381), ('boss', 0.6069169044494629)]

计算相似的词，topn＝1设置自取最相似词表中的第一个

model.most_similar(positive=["woman","king"],negative=["man"],topn=1)
# output : [('queen', 0.6571654081344604)]

#其意义是计算一个词d（或者词表），使得该词的向量v(d)与v(a="woman")-v(c="man")+v(b="king")最近

data中groupby索引

a = {'a':[1,1,2,2,3,3,4],'b':[3,3,6,6,7,4,9]}
a = pd.DataFrame(a)
for i,j in a.groupby('a'):
    print(i)
    print(j)

在这里插入图片描述

Faiss应用 - 召回框架

user_vector_arr  # shape(526,066, 128)
gds_vector_arr   # shape(5,172, 128)
dim = 128# 向量维度
k = 10  # 定义召回向量个数
index = faiss.IndexFlatL2(dim)  # L2距离，即欧式距离（越小越好）
# index=faiss.IndexFlatIP(dim) # 点乘，归一化的向量点乘即cosine相似度（越大越好）
index.add(gds_vector_arr) # 添加训练时的样本
D, I = index.search(user_vector_arr, k) # 寻找相似向量， I表示相似用户ID矩阵， D表示距离矩阵

Faiss召回学习笔记

猫爱吃鱼the

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
kdd 2020 常用分析代码

user_col = 'user_id'item_col = 'item_id'user_item_ = click_test.groupby(user_col)[item_col].agg(set)
复制链接

扫一扫

专栏目录