itemcf
文章平均质量分 64
Focus_Liu
做最骚的程序员,最吊的Team Leader。 欢迎加入java、算法、大模型技术群:329019348
展开
-
阿里Swing算法简介
公式: 思想: 通过用户来连接商品,形成图。两个都购买过商品i,j的用户,如果这两个用户共同购买的物品越少,则物品i和 j的相似性越高。 举例: item_i的点击用户:[u1,u2,u4,u5,u7] item_j的点击用户:[u1,u3,u4,u5] 得分: sim<i,j>=f(u1,u3)+f(u1,u5)+f(u4+u5) 其中:f(u1,u3)=1/(α+u1和u3并集个数 ...原创 2021-12-16 10:34:19 · 526 阅读 · 1 评论 -
Word2Vec计算相似文章
第一步:得到用户帖子的点击日志。 from pyspark.sql.types import BooleanType,LongType from scipy.stats import norm, t from pyspark.sql import SparkSession, DataFrame, functions as F from pyspark.sql.functions import udf,lit from dateutil.parser import parse import string原创 2020-05-09 15:37:10 · 161 阅读 · 0 评论 -
TF-IDF计算相似文章
%spark_recommend.pyspark from pyspark.sql.types import BooleanType,LongType from scipy.stats import norm, t from pyspark.sql import SparkSession, DataFrame, functions as F from pyspark.sql.functions ...原创 2020-12-31 01:03:34 · 227 阅读 · 0 评论 -
ItemCF-jaccard相似度计算相似item
from pyspark.sql import SparkSession, functions as F import heapq from pyspark.sql.types import StructType, StructField, LongType,FloatType, ArrayType, IntegerType spark = SparkSession.builder.appNa...原创 2020-04-09 02:04:16 · 608 阅读 · 0 评论