机器学习
文章平均质量分 80
frostjsy
越努力,越幸运
展开
-
rank的相关loss
排序优化时,主要从三个角度来考虑构建loss,分别为pointwise、pairwise、listwise。pointwise将排序所有query当成一个整体,计算每个对的loss,相当于一个二分问题。pairwise以每个query为维度,构建这样的元组,构建doc和doc之间的偏序关系。listwise以query为维度,将此query下的doc作为一个list进行建模。常见的这几种loss包括如下几种,来源于TF-Ranking代码库。Click原创 2023-12-02 12:42:06 · 1998 阅读 · 0 评论 -
p5模型详解
p5模型统一建模这5类任务,通过设计个性化prompt模版进行输入转换,转化为自然语言序列,作为encoder端的输入,再label进行prompt转化作为decoder的输出,通过seq2seq模型的损失函数进行预训练。下游应用时,给定目标输入,通过zero-shot的prompts模板进行输入转换,输入到encoder端进行编码,通过预训练好的decoder端进行解码,得到预测值,比如:下一次交互的item、评分、推荐理由、topK item ID等。对四个真实世界的数据集进行了广泛的实验。原创 2023-06-23 21:36:31 · 1655 阅读 · 1 评论 -
bert4rec简介
bert4rec整体架构如下图(b)所示,bert4rec是一个含有L层的transformer,每一层都可以利用上一层的信息,通过self-attention并行捕获任意位置的信息。原创 2023-06-22 23:20:36 · 1745 阅读 · 0 评论 -
auc计算逻辑
aucyuanhttps://zhuanlan.zhihu.com/p/84035782原创 2021-06-14 13:17:19 · 1873 阅读 · 1 评论 -
svm hinge损失函数详解
1、从软间距的角度来考虑损失问题实际情况下几乎不存在完全线性可分的数据,为了解决这个问题,引入了“软间隔”的概念,即允许某些点不满足约束2、从合页损失的角度来考虑损失问题在学习支持向量机的过程中,我们知道其损失函数为合页损失函数。至于为什么叫这个名字,李航老师的《统计学习方法》上是这么说的:由于函数形状像一个合页,故命合页损失函数。下图为合页损失函数的图像(取自《统计学习方法》):https://zhuanlan.zhihu.com/p/31886934(从软间距..原创 2021-03-21 23:21:25 · 1354 阅读 · 0 评论 -
gbdt树模型常考点
1、gbdt的过程?2、gbdt的特征是如何分裂的?3、gbdt如何分类?4、gbdt为什么比LR,SVM好? 预排序可以加速查找最佳分裂点5、gbdt优缺点?6、gbdt和xgboost的区别?https://www.zhihu.com/question/41354392(xgboost和gbdt比较)https://blog.csdn.net/qq_17677907/article/details/88318021(gbdt常见考点)https:/...原创 2021-03-17 23:32:47 · 192 阅读 · 0 评论 -
优化器(九)
1、什么是优化器 优化器用来寻找模型的最优解。2、常见优化器2.1. 批量梯度下降法BGD(Batch Gradient Descent)2.1.1、BGD表示 BGD 采用整个训练集的数据来计算 cost function 对参数的梯度: 假设要学习训练的模型参数为W,代价函数为J(W),则代价函数关于模型参数的偏导数即相关梯度为ΔJ(W),学习率为ηt,则使用梯度下降法更新参数为: Wt+1=Wt−ηtΔJ(Wt) 其中,Wt表示tt时刻的模型参数。...原创 2021-02-14 22:32:04 · 960 阅读 · 0 评论 -
损失函数(八)
1、损失函数目的损失函数loss function)是用来估量模型的预测值f(x)与真实值Y的不一致程度,它是一个非负实值函数,通常使用L(Y, f(x))来表示,损失函数越小,模型的鲁棒性就越好。损失函数是经验风险函数的核心部分,也是结构风险函数重要组成部分。模型的结构风险函数包括了经验风险项和正则项,通常可以表示成如下式子:2、损失函数、代价函数、目标函数之间的关系损失函数是代价函数的一部分,代价函数是目标函数的一种3、常见的损失函数回归常见的损失函数有:均方差(Mean S原创 2021-02-14 16:14:46 · 9410 阅读 · 0 评论 -
spark之常见的机器学习算法
1、分类、回归、聚类分类回归是一种重要的机器学习和数据挖掘技术。分类的目的是根据数据集的特点构造一个分类函数或分类模型(也常常称作分类器),该模型能把未知类别的样本映射到给定类别中的一种技术。即: 向量X=[x1,x2...xn]但标签C=[c1,c2...,ck]的映射F(W,X)=C聚类是一种无监督学习的方法,将无标签数据聚类到不同的簇中spark.ml支持的分类与回归算法2、常见算法实例介绍2.1、逻辑回归:2.1.1、逻辑斯蒂分布2.1.2、二项LR:原创 2020-10-05 11:26:30 · 3151 阅读 · 0 评论 -
损失函数及优化器
1、损失函数2、优化器原创 2020-09-23 23:48:21 · 290 阅读 · 0 评论 -
线性回归
一、一元线性回归:一个响应变量和一个解释变量的一元问题。一、一元线性回归:一个响应变量和一个解释变量的一元问题。1.分析匹萨的直径与价格的数据的线性关系,数据如下转载 2017-10-26 21:21:45 · 450 阅读 · 0 评论 -
LR模型详解
1、逻辑回归逻辑回归假设数据服从伯努利分布,通过极大化似然函数方法,运用梯度下降来求解参数,来达到将数据二分目的。2、算法推导对数几率函数:是一种Sigmoid函数,通过此函数来输出类别概率。对数几率函数为:,其中y代表的是样本视为正样本的可能性,则 1-y为视为负样本的可能性。对数几率:定义为,其中y/(1-y)称为比率。决策边界:作用在n维空间,将不同样本分开的平面或曲面,在逻辑回归中,决策边界对应$wx+b=0。3、逻辑参数估计3.1、使用极大似...原创 2020-08-23 23:21:10 · 14296 阅读 · 1 评论 -
树模型浅谈
1、树模型的进化ID3->C4.5->CART->RF->boosting->Adaboost->GBDT->xgboost2、决策树决策树是一个有监督的分类模型,本质是选择一个能带来最大信息增益的特征值进行分裂,直到到达结束条件或者叶子节点纯度到达一定阈值。决策树的每个非叶子节点表示一个特征属性上的测试,每个分支代表这个特征属性在某个值域上的输出。叶子节点存放一个类别,将存放的类别作为决策结果。2.1、ID3:以信息增益为准则来选择最优划分属性原创 2020-08-18 23:52:12 · 2178 阅读 · 0 评论 -
聚类算法资料
中文sklearn官网:https://sklearn.apachecn.org/docs/0.21.3/22.html聚类方法介绍的博客:https://www.cnblogs.com/lc1217/p/6893924.htmlsklearn中文官网:https://github.com/frostjsy/sklearn-doc-zh...原创 2020-02-06 20:59:45 · 162 阅读 · 0 评论 -
SVM总结
SVM简介:一、SVM定义:二分类模型,特征空间上间距最大的线性分类器;目标是间距最大化,可转化为凸二次优化问题。 二、给定一些数据点,可分为两类,SVM目标找到一个超平面线性划分这两个类别,超平面可方程表示为: x+b=0三、分类决策函数 f(x)=sign(x+b)四、函...原创 2019-05-27 00:05:43 · 661 阅读 · 0 评论