![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 58
Focus_Liu
做最骚的程序员,最吊的Team Leader。 欢迎加入java、算法、大模型技术群:329019348
展开
-
阿里Swing算法简介
公式:思想:通过用户来连接商品,形成图。两个都购买过商品i,j的用户,如果这两个用户共同购买的物品越少,则物品i和 j的相似性越高。举例:item_i的点击用户:[u1,u2,u4,u5,u7]item_j的点击用户:[u1,u3,u4,u5]得分:sim<i,j>=f(u1,u3)+f(u1,u5)+f(u4+u5)其中:f(u1,u3)=1/(α+u1和u3并集个数...原创 2021-12-16 10:34:19 · 512 阅读 · 1 评论 -
AliasSample采样算法
def create_alias_table(df): s = [row['weight'] for index, row in df.iterrows()] prob_values = np.array(s) # prob_values存放的是各个类型发生的累计概率*类型种数 prob_values = prob_values / sum(prob_values) # 归一化 skus = [row['skuId'] for index, row in df.iter.原创 2021-10-01 21:09:50 · 380 阅读 · 0 评论 -
CART-回归树 实例
例如:根据 职业和年龄来预测月薪。职业 年龄 月薪 程序员 22 20000 程序员 23 26000 程序员 29 30000 教师 23 12000 教师 25 14000 样本x:[1, 0, 22], [1, 0, 23], [1, 0, 29], [0, 1, 23], [0, 1, 25] (注:我们对职业特征进行了one-hot升维)样本y:[...原创 2021-01-16 22:02:31 · 3361 阅读 · 1 评论 -
Word2Vec计算相似文章
第一步:得到用户帖子的点击日志。from pyspark.sql.types import BooleanType,LongTypefrom scipy.stats import norm, tfrom pyspark.sql import SparkSession, DataFrame, functions as Ffrom pyspark.sql.functions import udf,litfrom dateutil.parser import parseimport string原创 2020-05-09 15:37:10 · 152 阅读 · 0 评论 -
ItemCF-jaccard相似度计算相似item
from pyspark.sql import SparkSession, functions as Fimport heapqfrom pyspark.sql.types import StructType, StructField, LongType,FloatType, ArrayType, IntegerTypespark = SparkSession.builder.appNa...原创 2020-04-09 02:04:16 · 597 阅读 · 0 评论 -
机器学习-LR模型
LR模型,理解成一个线性方程:如果只有一个特征:也就是y=ax+b,如果有两个特征也就是y=ax1+bx2+c这里我们根据 距海边的距离 预测 城市的最高温度。from sklearn.linear_model import LinearRegressionimport numpy as npimport matplotlib.pyplot as pltmodel = Line...原创 2019-08-10 18:31:58 · 1463 阅读 · 0 评论 -
LR模型-商品搜索实战
一个请求都已一个唯一标识字段,这样我们能拿到,这个请求曝光了哪些商品,点击了哪些商品,这个请求发生那一刻的特征。%spark_recommend.pysparkimport pandas as pdfrom pyspark.ml.feature import VectorAssembler, MinMaxScalerfrom pyspark.ml.linalg import Spars...原创 2019-10-07 14:52:39 · 232 阅读 · 0 评论