小红书2024LLM论文分享

2024小红书大模型论文分享

BatchEval基于LLM评估LLM生成文本的质量 ACL2024

https://ypw0102.github.io/
如果文本评价需要多个维度,需要调整BatchEval么?
目前是完整流程走一遍的,因此没有具体考虑细粒度。
评测连续的数据域,SC的具体作用,BatchEval后面有公式的推导。

大模型评估-在监督信号匮乏的情况下评估LLM

在这里插入图片描述
什么样子的模型是强模型? 是一个直观比较的结果:Acc在这个任务上越好,则认为它越强。

随着各大机构的模型越来越强,评估任务越来越复杂,如何在未来更加复杂的任务下评估LLM的能力。

大模型推理能力蒸馏-利用负样本促进LLM推理能力的蒸馏

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
思维链蒸馏
自增强(包括自蒸馏)
自扩充
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
NAT,negative traing
UL 非似然损失

负样本对于LLM蒸馏是有益处的。
负向校准增强。
NCE
SCA

方法在不同LLM上的泛化性质如何? 目前主流的模型都是OK的。
不同的参数都需要实验。

基于LLM的笔记内容表征推荐系统

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

LLM目前的研究热点?

yuanpeiwen:
1、低资源高效的LLM(用于推理、评测;降本增效)
wangxinglin
1、
liyiwei
1、与人类对其
2、多模态
zhangchao
1、推荐算法(LLM的模型相比于传统模型会有非常显著的提升)

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值