搜索系统中的Learning To Rank模型:GBRank

搜索系统中的Learning To Rank模型:GBRank
FesianXu 20220326 at Baidu Search Team

前言

Learning To Rank(LTR)模型是对搜索/计算广告/推荐系统中的排序问题进行模型建模的方法,在当前的搜索系统中有着至关重要的作用,本文简单介绍LTR模型中常用的GBRank模型,包括一些基本知识和笔者的理解。如有谬误请联系指出,本文遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明并且联系笔者,谢谢

∇ \nabla 联系方式:
e-mail: FesianXu@gmail.com

github: https://github.com/FesianXu

知乎专栏: 计算机视觉/计算机图形理论与应用

微信公众号

qrcode


搜索系统中的排序问题

如果从黑盒子的角度去看待搜索系统,那么可以将搜索系统看成是输入用户Query(用户表达需求的手段),搜索系统通过一阵鼓捣,最后输出一个相关Doc的有序列表,如Fig 1.1所示,对搜索系统更为细节的介绍可见 [5]。可以看出『有序』对于搜索系统的重要性,它直接决定了这个搜索系统的性能,而Learning To Rank(LTR)模型就是用于对若干个Doc进行排序的模型,其输入是若干个Doc的特征 x ∈ R D \mathbf{x} \in \mathbb{R}^{D} xRD,而输出是每个Doc的先后顺序。一般而言,理想中的Doc的先后顺序取决与产品定义,以及LTR模型应用在搜索系统的何种阶段,比如在上层排序中可能会考虑到Doc的CTR信号,其排序需求和粗排(大部分时候考虑Query-Doc的相关性,质量性等等)就可能有所区别。关于LTR模型的详细介绍可见综述 [3,4]。

ir_system

Fig 1.1 搜索系统从黑盒子的角度看,是输入Query,输出相关Doc的有序列表。

为了描述的简单性考虑,本文只考虑相关性排序。那么总得来说,LTR模型对于Doc排序可以有两种方式:

  1. 绝对相关性判断: LTR模型对每个文档 x i x_i xi给出其相关性判断 y i = g ( x i ) , i = 1 , ⋯   , N y_i = g(x_i),i=1,\cdots,N yi=g(xi),i=1,,N,通过对这 N N N个数值进行排序,从而得到文档有序列表,这类型的模型通常是回归模型,比如GBDT模型。
  2. 相对相关性判断: 对所有文档 x i , i = 1 , ⋯   , N x_i, i=1,\cdots,N xi,i=1,,N构建出 M M M个有序对 { ( x i , y i ) ∣ i = 1 , ⋯   , M } \{(x_i,y_i)|i=1,\cdots,M\} {(xi,yi)i=1,,M},而LTR模型通过对每个有序对进行相关性判断 s i = g ( x i , y i ) = h ( x i ) − h ( y i ) s_{i}=g(x_i, y_i)=h(x_i)-h(y_i) si=g(xi,yi)=h(xi)h(yi),如果 s i > 0 s_{i} \gt 0 si>0则认为 x i x_i xi相关性高于 y i y_i yi,也即是 x i ≻ y i x_i \succ y_i xiyi,反之亦然。这种模型包括RankSVM,还有本文将会介绍的GBRank模型等。

绝对相关性判断LTR模型要求每个Doc都有相关性标注,通常需要大量人力进行标注。相对相关性判断LTR模型的标注是有序对的序关系,而不是对Doc的绝对判断,因此获取标注的方式有两种:1. 通过对每个Doc进行人工标注后计算 ( x i , x j ) (x_i,x_j) (xi,xj)的序关系;2. 通过用户的行为数据(比如点击,停留时长等),从大量的搜索日志中构建出大量有序对数据,从而减少人工标注的压力。注意到,通过人工标注同样可以构建出有序对数据。文章[1]发现,在Doc拥有绝对相关性标注的时候,GBRank通过构建有序对进行训练,性能甚至比单独采用绝对相关性标注进行的GBDT效果还好。我们在介绍完了LTR模型的应用背景后,就开始正式介绍GBRank模型。

GBRank

GBRank [1]全称Gradient Boost Rank模型,其通过采用Gradient Boost Tree模型作为基模型(Base model)对有序对的序关系进行判断,我们之前在 [6]中对GBDT模型进行过简单的介绍,这里为了文章的完整性会再对GBDT模型唠叨几句。我们知道对于一个无约束的多元函数最优化问题,可以通过梯度下降进行求解。假如求解 min ⁡ x ∈ R d F ( x ) \min_{x \in \mathbb{R}^{d}}F(x) minxRdF(x),那么通过梯度下降对参数 x x x进行更新的过程为:
x k + 1 = x k − α k ∇ F ( x k ) (2-1) x_{k+1} = x_k - \alpha_k \nabla F(x_k) \tag{2-1} xk+1=xkαkF(xk)(2-1)
其中的 α k \alpha_k αk为步长,可通过线性查找(Linear Search)在每一步进行求解。在求解多元函数最优值的场景中,函数 F ( x ) F(x) F(x)是已经固定了的,而在回归树的场景中,我们需要求得的最值,不是对参数 x x x进行的,而是求得 函数族 F ( x ) F(x) F(x)的最值。以训练数据 { ( x i , g i ) } i = 1 N \{(x_i,g_i)\}_{i=1}^{N} {(xi,gi)}i=1N为例,我们需要找到一个函数 h h h g i ≈ h ( x i ) , i = 1 , ⋯   , N g_i\approx h(x_i),i=1,\cdots,N gih(xi),i=1,,N,如果损失函数为MSE函数,那么有:
min ⁡ h ∈ H L ( h ) = min ⁡ h ∈ H 1 2 ∑ i = 1 N ( g i − h ( x i ) ) 2 (2-2) \min_{h \in \mathcal{H}} L(h) = \min_{h \in \mathcal{H}} \dfrac{1}{2} \sum_{i=1}^{N} (g_i - h(x_i))^2 \tag{2-2} hHminL(h)=hHmin21i=1N(gih(xi))2(2-2)
其中的 H \mathcal{H} H为假设的函数族空间,比如整个梯度决策树模型空间。注意到,此时已经不是对参数进行求最优了,而是对整个函数求最优。类似的,函数的梯度下降(functional gradient descent)可以表示为(2-3):
h k + 1 = h k ( x ) − α k ∇ L ( h k ( x ) ) (2-3) h_{k+1} = h_k(x) - \alpha_k \nabla L(h_k(x)) \tag{2-3} hk+1=hk(x)αkL(hk(x))(2-3)
显然我们的训练数据是有限的,因此 ∇ L ( h k ( x ) ) \nabla L(h_k(x)) L(hk(x))只能在有限的 N N N个训练数据上进行导数计算,也即是:
∇ L ( h k ( x i ) ) = − ( g i − h k ( x i ) ) , i = 1 , ⋯   , N (2-4) \nabla L(h_k(x_i)) = -(g_i-h_k(x_i)), i=1,\cdots,N \tag{2-4} L(hk(xi))=(gihk(xi)),i=1,,N(2-4)
这样的函数梯度是不完整的,而GBDT模型就采用决策树模型 f f f,尝试对函数梯度 ∇ L ( h k ( x i ) ) \nabla L(h_k(x_i)) L(hk(xi))进行插值。因此,GBDT模型算法可以总结为:

  1. 初始化 h 0 ( x ) = ∑ i = 1 N g i / N h_0(x) = \sum_{i=1}^{N} g_i/N h0(x)=i=1Ngi/N

  2. 对于 k = 1 , ⋯   , M k=1, \cdots, M k=1,,M个设定的树数量来说,有:

    • 对于 i = 1 , ⋯   , N i=1,\cdots,N i=1,,N个样本,计算负梯度
      r i k = g i − h k − 1 ( x i ) r_{ik} = g_i - h_{k-1} (x_i) rik=gihk1(xi)

    • 对于指定的Terminal Region R j k , j = 1 , ⋯   , J k R_{jk}, j=1,\cdots,J_k Rjk,j=1,,Jk而言,采用回归树方法对负梯度 { r i k } i = 1 , ⋯   , N \{r_{ik}\}_{i=1,\cdots,N} {rik}i=1,,N进行拟合。

  3. 对于 j = 1 , ⋯   , J k j=1,\cdots,J_k j=1,,Jk,计算
    γ j k = ∑ x i ∈ R j k ( g i − h k − 1 ( x i ) ) / ∣ i : x i ∈ R j k ∣ \gamma_{jk} = \sum_{x_i \in R_{jk}} (g_i-h_{k-1}(x_i)) / |i: x_i \in R_{jk}| γjk=xiRjk(gihk1(xi))/i:xiRjk
    这是对每个Terminal Region进行求平均,具体原因见[6]

  4. 更新函数:
    h k ( x ) = h k − 1 ( x ) + η ( ∑ j = 1 J k γ j k I ( x ∈ R j k ) ) (2-5) h_k(x) = h_{k-1}(x) + \eta(\sum_{j=1}^{J_k} \gamma_{jk}I(x \in R_{jk})) \tag{2-5} hk(x)=hk1(x)+η(j=1JkγjkI(xRjk))(2-5)
    其中的 η \eta η为缩放系数, I ( ⋅ ) I(\cdot) I()为指示函数,当条件符合时输出1,否则输出0。

其中的超参数 M M M η \eta η可通过交叉验证进行挑选。强烈建议读者移步 [6],有些细节和理论没在本文进行展开。以上对GBDT模型进行了简单介绍,我们开始介绍如何通过GBDT回归树去进行有序对排序。

我们用符号 x i ≻ y i x_i \succ y_i xiyi表示 x i x_i xi y i y_i yi更相关,因此期望 h ( x i ) > h ( y i ) h(x_i) \gt h(y_i) h(xi)>h(yi),其中 i = 1 , ⋯   , N i=1,\cdots,N i=1,,N表示数据的条数。我们构建出有序对数据:
S = { ( x i , y i ) ∣ x i > y i , i = 1 , ⋯   , N } (2-6) \mathcal{S} = \{(x_i, y_i) | x_i > y_i, i=1,\cdots,N\} \tag{2-6} S={(xi,yi)xi>yi,i=1,,N}(2-6)
我们用ranking loss作为损失,那么有:
R ( h ) = 1 2 ∑ i = 1 N ( max ⁡ ( 0 , h ( y i ) − h ( x i ) ) ) 2 (2-7) \mathcal{R}(h) = \dfrac{1}{2} \sum_{i=1}^N (\max(0, h(y_i)-h(x_i)))^2 \tag{2-7} R(h)=21i=1N(max(0,h(yi)h(xi)))2(2-7)
(2-7)式子容易陷入平凡解(也就是求出常数解, h ( y i ) = h ( x i ) = c o n s t h(y_i)=h(x_i)=\mathrm{const} h(yi)=h(xi)=const),因为 min ⁡ R ( h ) = 0 \min \mathcal{R}(h) = 0 minR(h)=0,因此只要 h ( y i ) = h ( x i ) = c o n s t h(y_i)=h(x_i)=\mathrm{const} h(yi)=h(xi)=const就能够满足。为了解决这个问题,通过在损失函数中引入一个常数 0 < τ ≤ 1 0 \lt \tau \leq 1 0<τ1即可,如(2-8)
R ( h , τ ) = 1 2 ∑ i = 1 N ( max ⁡ ( 0 , h ( y i ) − h ( x i ) + τ ) ) 2 − λ τ 2 (2-8) \mathcal{R}(h, \tau) = \dfrac{1}{2} \sum_{i=1}^N (\max(0, h(y_i)-h(x_i)+\tau))^2 - \lambda \tau^2 \tag{2-8} R(h,τ)=21i=1N(max(0,h(yi)h(xi)+τ))2λτ2(2-8)
这一点容易理解,此时 min ⁡ R ( h , τ ) \min \mathcal{R}(h, \tau) minR(h,τ)将不一定等于0,即便陷入平凡解,仍然会产生梯度让优化继续进行。

然而(2-8)由于涉及到了两个自变量 x i , y i x_i,y_i xi,yi,其优化过程并不容易,文章中通过交替固定某个变量为常数,对另一个变量进行优化来解决。也即是:
− ∂ R ( h ) ∂ h ( x i ) = max ⁡ ( 0 , h ( y i ) − h ( x i ) + τ ) − ∂ R ( h ) ∂ h ( y i ) = − max ⁡ ( 0 , h ( y i ) − h ( x i ) + τ ) (2-9) \begin{aligned} -\dfrac{\partial \mathcal{R}(h)}{\partial h(x_i)} &= \max(0, h(y_i)-h(x_i)+\tau) \\ -\dfrac{\partial \mathcal{R}(h)}{\partial h(y_i)} &= -\max(0, h(y_i)-h(x_i)+\tau) \end{aligned} \tag{2-9} h(xi)R(h)h(yi)R(h)=max(0,h(yi)h(xi)+τ)=max(0,h(yi)h(xi)+τ)(2-9)
可知(2-9)上下两式分别将 h ( y i ) h(y_i) h(yi) h ( x i ) h(x_i) h(xi)当成常数,对另一个变量 h ( x i ) h(x_i) h(xi) h ( y i ) h(y_i) h(yi)求导。当 h ( y i ) − h ( x i ) + τ < 0 h(y_i)-h(x_i)+\tau < 0 h(yi)h(xi)+τ<0的时候,可知不会产生梯度;当 h ( y i ) − h ( x i ) + τ > 0 h(y_i)-h(x_i)+\tau > 0 h(yi)h(xi)+τ>0时,可知(2-9)可写成(2-10)
− ∂ R ( h ) ∂ h ( x i ) = h ( y i ) − h ( x i ) + τ > 0 − ∂ R ( h ) ∂ h ( y i ) = h ( x i ) − h ( y i ) − τ > 0 (2-10) \begin{aligned} -\dfrac{\partial \mathcal{R}(h)}{\partial h(x_i)} &= h(y_i)-h(x_i)+\tau > 0\\ -\dfrac{\partial \mathcal{R}(h)}{\partial h(y_i)} &= h(x_i)-h(y_i)-\tau > 0 \end{aligned} \tag{2-10} h(xi)R(h)h(yi)R(h)=h(yi)h(xi)+τ>0=h(xi)h(yi)τ>0(2-10)
也就是说有 h ( y i ) + τ > h ( x i ) , h ( x i ) − τ > h ( y i ) h(y_i)+\tau > h(x_i), h(x_i)-\tau>h(y_i) h(yi)+τ>h(xi),h(xi)τ>h(yi),这些之前的base model无法解决的『Bad case』,可以理解为我们函数梯度更新的方向需要使得 h ( y i ) + τ ≤ h ( x i ) , h ( x i ) − τ ≤ h ( y i ) h(y_i)+\tau \leq h(x_i), h(x_i)-\tau \leq h(y_i) h(yi)+τh(xi),h(xi)τh(yi),这也即是我们下一个迭代的base model需要满足的,可知此时可以将 h ( y i ) + τ h(y_i)+\tau h(yi)+τ h ( x i ) − τ h(x_i)-\tau h(xi)τ看成是常数。不妨构建数据:
{ ( x i , h ( y i ) + τ ) , ( y i , h ( x i ) − τ ) } (2-11) \{(x_i, h(y_i)+\tau), (y_i, h(x_i)-\tau)\} \tag{2-11} {(xi,h(yi)+τ),(yi,h(xi)τ)}(2-11)
给下一次迭代的base model进行学习,这也满足Boost范式中逐渐解决上一次迭代未解决的bad case的思想。那么GBRank算法可以总结为:

  1. h 0 h_0 h0进行初始化

  2. 对于 k = 1 , ⋯   , K k=1,\cdots,K k=1,,K (base model的数量)有:

    • h k − 1 h_{k-1} hk1作为对 h h h的估计,将 S \mathcal{S} S分割为两个互斥的集合:
      S + = { ( x i , y i ) ∈ S ∣ h k − 1 ( x i ) ≥ h k − 1 ( y i ) + τ } S − = { ( x i , y i ) ∈ S ∣ h k − 1 ( x i ) < h k − 1 ( y i ) + τ } \begin{aligned} \mathcal{S}^{+} &= \{(x_i, y_i) \in \mathcal{S} | h_{k-1}(x_i) \geq h_{k-1}(y_i)+\tau\} \\ \mathcal{S}^{-} &= \{(x_i, y_i) \in \mathcal{S} | h_{k-1}(x_i) \lt h_{k-1}(y_i)+\tau\} \\ \end{aligned} S+S={(xi,yi)Shk1(xi)hk1(yi)+τ}={(xi,yi)Shk1(xi)<hk1(yi)+τ}

    • 用回归树 g k ( x ) g_k(x) gk(x)去对数据 { ( x i , h k − 1 ( y i ) + τ ) , ( y i , h k − 1 ( x i ) − τ ) ∣ ( x i , y i ) ∈ S − } \{(x_i, h_{k-1}(y_i)+\tau), (y_i, h_{k-1}(x_i)-\tau) | (x_i,y_i) \in \mathcal{S}^{-} \} {(xi,hk1(yi)+τ),(yi,hk1(xi)τ)(xi,yi)S}进行拟合。

    • 更新 h h h为:
      h k = k h k − 1 ( x ) + η g k ( x ) k + 1 h_{k} = \dfrac{k h_{k-1}(x)+\eta g_k(x)}{k+1} hk=k+1khk1(x)+ηgk(x)

构建有序对数据

以上章节讲述了算法的构成,我们还一直没谈如何构建有序对数据。一般来说可以通过两种方式进行构造:1. 从人工标注数据中构造有序对;2. 根据用户行为信号构造有序对。

从人工标注数据中构造

对于某个检索词q和两个文档 d x , d y d_x, d_y dx,dy,有二元对 ( q , d x ) , ( q , d y ) (q, d_x), (q, d_y) (q,dx),(q,dy),可以根据相关性(或其他指标,看系统需求)对二元对进行标注,比如有0-4五个档位,用 l ( q , d i ) l(q, d_i) l(q,di)表示 q q q和第 i i i个文档的标注,那么如果有 l ( q , d x ) > l ( q , d y ) l(q, d_x) > l(q, d_y) l(q,dx)>l(q,dy),就有偏序关系 x ≻ y x \succ y xy,也就可以构建出有序对 ( x , y ) (x, y) (x,y)

根据用户行为信号构造

根据用户行为信号(比如点击信号)进行有序对构造,也称为隐式反馈(Implicit Feedback),论文[2]对从隐式反馈中构建有序数据有过深入研究,而本文也是基于[2]的研究进行的。对于一个检索词q而言,考虑其前10结果中的任意两个文档,其中的文档 d 1 d_1 d1展现了 n 1 n_1 n1次,被点击了 c 1 c_1 c1次;而文档 d 2 d_2 d2展现了 n 2 n_2 n2次,被点击了 c 2 c_2 c2次。那么需要通过假设检验对,对 d 1 d_1 d1 d 2 d_2 d2是否可以视为是通过点击信号,就能判断某个比另一个更好的二元对。假设点击行为符合二值分布,那么有:
B ( k ; n ; p ) = ( n p ) p k ( 1 − p ) n − k (3-1) B(k;n;p) = \begin{pmatrix} n \\ p \end{pmatrix} p^k (1-p)^{n-k} \tag{3-1} B(k;n;p)=(np)pk(1p)nk(3-1)
作者采用likelihood ratio test (LRT) 进行检验,有:
λ ≡ B ( c 1 + c 2 ; n 1 + n 2 ; ( c 1 + c 2 ) / ( n 1 + n 2 ) ) B ( c 1 ; n 1 ; c 1 / n 1 ) B ( c 2 ; n 2 ; c 2 / n 2 ) → − χ 2 (3-2) \lambda \equiv \dfrac{B(c1 + c2; n1 + n2; (c1 + c2)/(n1 + n2))}{B(c1; n1; c1/n1)B(c2; n2; c2/n2) } \rightarrow -\chi^2 \tag{3-2} λB(c1;n1;c1/n1)B(c2;n2;c2/n2)B(c1+c2;n1+n2;(c1+c2)/(n1+n2))χ2(3-2)
一旦文档对 d 1 d_1 d1 d 2 d_2 d2通过了假设检验,即可通过论文[2]中提到的Skip-Above等类似的方法构造有序对,Skip-Above可以简单解释如下。假设某次检索的结果,返回了有序的文档列表(其中下标越大表示排序越后):
I 1 ∗ , I 2 , I 3 ∗ , I 4 , I 5 ∗ , I 6 , I 7 I_{1}^*, I_2, I_{3}^*, I_{4}, I_{5}^*, I_{6}, I_{7} I1,I2,I3,I4,I5,I6,I7
其中上标带*的表示是用户点击过了的文档,那么Skip-Above认为排序越后但是被点击过了的文档,其相关性会比排序靠前但是未被点击的文档相关性更好,也就是有 r e l ( I 5 ) > r e l ( I 4 ) \mathrm{rel}(I_{5}) > \mathrm{rel}(I_{4}) rel(I5)>rel(I4), r e l ( I 5 ) > r e l ( I 2 ) \mathrm{rel}(I_{5}) > \mathrm{rel}(I_{2}) rel(I5)>rel(I2), r e l ( I 3 ) > r e l ( I 2 ) \mathrm{rel}(I_{3}) > \mathrm{rel}(I_{2}) rel(I3)>rel(I2)。在本文中,因为可能两个文档都被点击过,不能直接采用Skip-Above 方法。可以考虑对点击次数卡阈值的方法,再采用 Skip-Above进行有序对构造。Skip-Above的产生是有着用户行为学实验和分析的,这个我们后续的博文再进行介绍。

Reference

[1]. Zheng, Zhaohui, et al. “A regression framework for learning ranking functions using relative relevance judgments.” Proceedings of the 30th annual international ACM SIGIR conference on Research and development in information retrieval. 2007.

[2]. Joachims, Thorsten, et al. “Accurately interpreting clickthrough data as implicit feedback.” Acm Sigir Forum. Vol. 51. No. 1. New York, NY, USA: Acm, 2017.

[3]. Li, Hang. “Learning to rank for information retrieval and natural language processing.” Synthesis lectures on human language technologies 7.3 (2014): 1-121.

[4]. Liu, Tie-Yan. “Learning to rank for information retrieval.” Foundations and Trends® in Information Retrieval 3.3 (2009): 225-331.

[5]. 从零开始的搜索系统学习笔记, https://blog.csdn.net/LoseInVain/article/details/116377189

[6]. GBDT-梯度提升决策树的一些思考, https://blog.csdn.net/LoseInVain/article/details/113429866

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
### 回答1: "Learning to Compare: Relation Network for Few-Shot Learning" 是一篇关于Few-Shot Learning(小样本学习)的论文,提出了一种称为“关系网络”的新型神经网络架构。 该网络旨在解决小样本学习的问题,该问题通常会导致在只有极少量的训练样本的情况下,模型的泛化性能下降。关系网络使用一个子网络来提取图像特征,并通过计算这些特征之间的关系来对它们进行分类。 关系网络的特点是它在执行分类任务时能够捕捉物体之间的关系和上下文信息,因此在少量样本的情况下,它的性能比其他方法更好。该网络已经被广泛应用于小样本学习领域,并在多项实验获得了优秀的表现。 ### 回答2: 本文主要介绍了一种基于关系网络的few-shot学习方法——Relation Network(RN)。Few-shot学习是一种类别识别的任务,旨在从非常少量(通常是几个)的样本学习新的类别。RN为此提供了一种强大的框架,可以在few-shot学习能够有效地捕捉物体之间的关系,从而实现精确的类别识别。 RN在模型设计引入了两个重要的组件:特征提取器和关系网络。特征提取器通常是卷积神经网络(CNN),它可以提取出每个样本的特征表示。关系网络的作用是计算出每对样本之间的关系,将这些关系汇总到一起,最终出现样本之间的相对关系。在计算样本之间的关系时,RN采用的是一种全连接神经网络,它对每一对样本的特征进行融合,然后输出一个特定类别的置信度。 值得注意的是,RN的关系网络不仅可以使用在few-shot学习,也可以应用于全局分类问题。此外,RN采用了一些有效的技巧来加速测试阶段的推理速度,比如使用浅层矩阵乘法以减少计算量,和简单的欧氏距离作为度量衡量。 总而言之,RN是一种强大的学习方法,特别是在few-shot学习方面,可以实现更好的判别性能和更准确的类别识别。不过,同时也存在一些限制,比如需要更多的数据集来训练样本的特征提取器,以及容易出现过拟合问题。因此,RN还需要进行更深入的研究和优化,以实现更大范围的应用和实际效果。 ### 回答3: 学习比较:关系网络是一种少样本学习的方法,旨在解决少样本学习问题的挑战。传统的机器学习方法需要大量数据来训练模型。而在现在许多领域,例如医疗诊断和工业生产,只有很少的数据可用于训练模型。在这种情况下,少样本学习就变得非常重要。学习比较:关系网络是少样本学习的一种新方法,它通过学习对象之间的关系来捕捉它们之间的相似性和差异性。 学习比较:关系网络包含两个部分:特征提取器和关系网络。特征提取器将输入图像转换为对应的向量表示,而关系网络则对这些向量进行比较,从而推断它们之间的关系。关系网络可以用来处理各种不同的问题,例如分类、回归和生成等。 学习比较:关系网络的优点是,它可以利用少量的数据来学习,并且可以在不同的任务之间共享知识。这使它成为处理少样本学习问题时的一个有力工具。在实际应用,学习比较:关系网络已经被广泛应用于图像分类、目标检测和语音识别等领域,并产生了许多显著的结果。未来,随着越来越多的研究者开始使用这种方法,我们可以期待看到更多的成功案例,并进一步将学习比较:关系网络应用到更广泛的领域,以帮助人们解决难题并改善生活质量。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

FesianXu

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值