- 博客(331)
- 资源 (27)
- 收藏
- 关注
原创 大模型数据污染
论文翻译:arxiv-2024 Estimating Contamination via Perplexity: Quantifying Memorisation in Language Model 高论文翻译:ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS 高论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Sur
2024-09-14 14:34:50 506
原创 大模型提示词安全
翻译:arXiv-2023 PromptRobust: Towards Evaluating the Robustness of Large Language Models on
2024-09-11 10:19:33 156
原创 2024-9-18 大语言模型问题 美团王兴:745万骑手获800亿报酬,人均多少问题
我就产生了个问题,745万骑手获800亿报酬,人均多少钱。我就把这个问题输入到各个大模型,结果答案不一致,并且差异还挺大的。
2024-09-18 12:11:15 196
原创 论文翻译 2023-ACL.Justus Mattern.Membership Inference Attacks against Language Models via Neighbourhood
成员推理攻击(MIAs)旨在预测一个数据样本是否出现在机器学习模型的训练数据中,它们被广泛用于评估语言模型的隐私风险。大多数现有的攻击依赖于这样一个观察:模型倾向于为训练样本分配比非训练点更高的概率。然而,简单地将模型得分作为阈值来孤立判断,往往会导致高误报率,因为它没有考虑到样本的内在复杂性。最近的工作已经证明,通过将模型得分与在类似数据上训练的参考模型获得的得分进行比较,基于参考的攻击可以显著提高MIAs的性能。
2024-09-16 23:02:40 883
原创 论文翻译:arxiv-2024 Training on the Benchmark Is Not All You Need
Training on the Benchmark Is Not All You Needhttps://arxiv.org/pdf/2409.01790标题:基准测试并非你所需的全部摘要:大型语言模型(LLMs)的成功在很大程度上依赖于在预训练阶段学习的大量预训练数据。预训练过程的不透明性和训练数据使得许多基准测试的结果变得不可靠。如果任何模型在基准测试集上进行过训练,它将严重阻碍该领域的健康发展。为了自动化和高效地测试大型语言模型的能力,众多主流基准测试采用了多项选择格式。由于多项选择选项内容的
2024-09-14 07:23:23 1061
原创 论文翻译:ACL-2024 CCF-A How Johnny Can Persuade LLMs to Jailbreak Them: Rethinking Persuasion to
大多数传统的AI安全研究将AI模型视为机器,并以安全专家开发的、以算法为中心的攻击为主。随着大型语言模型(LLM)变得越来越普遍和能干,非专家用户在日常互动中也可能带来风险。本文提出了一个新的视角,将LLM视为类人沟通者来越狱,以探索日常语言互动与AI安全之间被忽视的交叉点。具体来说,我们研究了如何说服LLM进行越狱。首先,我们提出了一个源自数十年社会科学研究的说服分类法。然后,我们将这个分类法应用于自动生成可解释的说服性对抗性提示(PAP)来越狱LLM。
2024-09-12 16:50:41 495
原创 论文翻译:ACL-2024 CCF-A radSafe: Detecting Jailbreak Prompts for LLMs via Safety-Critical Gradient
大型语言模型(LLMs)面临着越狱提示的威胁。现有的检测越狱提示的方法主要是在线内容审核API或微调后的LLMs。然而,这些策略通常需要广泛且资源密集的数据收集和训练过程。在这项研究中,我们提出了GradSafe,它通过仔细检查LLMs中安全关键参数的梯度来有效检测越狱提示。我们的方法基于一个关键的观察:越狱提示与遵从性回应(如“当然”)配对时,LLMs损失的梯度在某些安全关键参数上显示出相似的模式。相比之下,安全提示导致不同的梯度模式。
2024-09-12 12:58:11 526
原创 论文翻译:IEEE-2023 Analyzing leakage of personally identifiable information in language models
语言模型(LM)已被证明可以通过句子级别的成员推断和重建攻击泄露训练数据信息。对LM泄露个人身份信息(Personally Identifiable Information, PII)的风险理解受到了较少的关注,这可以归因于错误地假设数据集策划技术(如擦除)足以防止PII泄露。擦除技术减少了但并未阻止PII泄露的风险:在实践中,擦除是不完美的,并且必须在最小化披露和保留数据集效用之间权衡。另一方面,尚不清楚算法防御措施(如差分隐私)在多大程度上防止了PII披露,这些措施旨在保证句子或用户级别的隐私。
2024-09-12 10:18:14 830
原创 论文翻译:USENIX-2021 Extracting Training Data from Large Language Models
现在,发布在私有数据集上训练的大型(数十亿参数)语言模型已经变得很常见。本文展示了在这种设置中,攻击者可以通过查询语言模型来恢复个别训练样本,从而执行训练数据提取攻击。我们在GPT-2上展示了我们的攻击,GPT-2是一个在公共互联网抓取的数据上训练的语言模型,我们能够从模型的训练数据中提取数百个逐字文本序列。这些提取的示例包括(公共)个人身份信息(姓名、电话号码和电子邮件地址)、IRC对话、代码和128位UUID。即使在训练数据中每个上述序列只包含在一个文档中,我们的攻击也是可能的。
2024-09-12 09:50:47 1214
原创 论文翻译:arxiv-2023 Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs
随着大型语言模型(LLMs)的快速发展,出现了新的、难以预测的有害能力。这要求开发者能够通过评估“危险能力”来识别风险,以便负责任地部署LLMs。在这项工作中,我们收集了第一个开源数据集,用于评估LLMs中的安全保障,并以低成本部署更安全的开源LLMs。我们的数据集经过策划和筛选,只包含负责任的语言模型不应遵循的指令。我们注释并评估了六个流行的LLMs对这些指令的响应。基于我们的注释,我们继续训练了几个类似BERT的分类器,并发现这些小型分类器在自动安全评估上能够取得与GPT-4相当的成果。
2024-09-11 15:03:29 599
原创 论文翻译:ACM-2023 Not what you‘ve signed up for: Compromising real-world llm-integrated applications
大型语言模型(LLMs)正越来越多地被集成到各种应用程序中。最近的LLMs的功能可以通过自然语言提示灵活调节。这使它们容易受到针对性的对抗性提示的影响,例如,提示注入(PI)攻击使攻击者能够覆盖原始指令和使用的控制。到目前为止,人们一直假设是用户直接提示LLM。但是,如果不是用户提示呢?我们认为,集成了LLM的应用模糊了数据和指令之间的界限。我们揭示了新的攻击向量,使用间接提示注入,使对手能够在没有直接界面的情况下远程利用集成了LLM的应用,通过策略性地将提示注入到可能被检索的数据中。
2024-09-11 12:05:58 1026
原创 论文翻译:arxiv-2022 Ignore Previous Prompt: Attack Techniques For Language Models
基于Transformer的大型语言模型(LLMs)为大规模面向客户的应用程序中的自然语言任务提供了强大的基础。然而,探索恶意用户互动中出现的漏洞的研究却很少。通过提出PROMPTINJECT,一个基于掩码的迭代对抗性提示组合的平淡对齐框架,我们检验了GPT-3(生产中部署最广泛的语言模型)如何容易被简单的手工输入所误导。特别是,我们研究了两种类型的攻击——目标劫持和提示泄露——并展示了即使是低能力的,但足够恶意的代理,也可以轻易利用GPT-3的随机性,造成长尾风险。
2024-09-11 11:12:57 1201
原创 论文翻译:PMLR-2023 Automatically Auditing Large Language Models via Discrete Optimization
对大型语言模型进行审计以发现意外行为对于预防灾难性的部署至关重要,但这一任务仍然具有挑战性。在这项工作中,我们将审计视为一个优化问题,其中我们自动搜索匹配期望目标行为的输入-输出对。例如,我们可能旨在找到一个以“Barack Obama”开头的非毒性输入,而模型将其映射到一个有毒的输出。这个优化问题难以解决,因为可行点集稀疏,空间是离散的,而且我们审计的语言模型是非线性和高维的。为了应对这些挑战,我们引入了一个离散优化算法ARCA,它联合并高效地优化输入和输出。
2024-09-11 11:02:31 598
原创 论文翻译:arxiv-2024 KIEval: A Knowledge-grounded Interactive Evaluation Framework for Large Language
大型语言模型(LLMs)的自动评估方法受到数据污染的阻碍,导致对它们有效性的评估过高。现有的策略,旨在检测污染文本,专注于量化污染状态,而不是准确衡量模型性能。在本文中,我们介绍了KIEval,一个知识基础的交互式评估框架,首次引入了一个由LLM驱动的“交互者”角色,以实现动态的、抗污染的评估。从涉及特定领域知识的常规LLM基准测试中的问题开始,KIEval利用动态生成的、多轮次的、知识集中的对话来确定模型的回应是否仅仅是对基准答案的回忆,还是展示了在更复杂对话中应用知识的深层理解。
2024-09-07 21:06:22 604
原创 论文翻译:arxiv-2024 Estimating Contamination via Perplexity: Quantifying Memorisation in Language Model
大型语言模型(LLMs)的自动评估方法受到数据污染的阻碍,导致对它们有效性的评估过高。现有的策略,旨在检测污染文本,专注于量化污染状态,而不是准确衡量模型性能。在本文中,我们介绍了KIEval,一个知识基础的交互式评估框架,首次引入了一个由LLM驱动的“交互者”角色,以实现动态的、抗污染的评估。从涉及特定领域知识的常规LLM基准测试中的问题开始,KIEval利用动态生成的、多轮次的、知识集中的对话来确定模型的回应是否仅仅是对基准答案的回忆,还是展示了在更复杂对话中应用知识的深层理解。
2024-09-07 21:03:49 564
原创 论文翻译:arxiv-2024 Data Contamination Quiz: A Tool to Detect and Estimate Contamination in Large
我们提出了数据污染测验(Data Contamination Quiz,DCQ),这是一种简单有效的检测大型语言模型(LLMs)中数据污染的方法,并估计污染的程度。具体来说,我们将数据污染检测构建为一系列多项选择问题,并设计了一种测验格式,其中从特定数据集分区(例如,GSM8k测试集)的每个子样本实例创建三个扰动版本。这些变化仅包括单词级别的扰动。生成的扰动,连同原始数据集实例,构成了DCQ中的选项,额外提供一个选项以容纳选择无提供选项的可能性。
2024-09-07 20:57:22 624
原创 论文翻译:arxiv-2024 Compression Represents Intelligence Linearly
有一种观点认为,学会压缩将导致智能(Hutter, 2006)。最近,语言建模已被证明等同于压缩,这为大型语言模型(LLMs)的成功提供了一个有说服力的理由:更先进的语言模型的发展本质上是增强压缩,从而促进智能。尽管有这样吸引人的讨论,但关于压缩和智能之间相互作用的经验证据很少。在这项工作中,我们在LLMs的背景下检验它们的关系,将LLMs视为数据压缩器。鉴于“智能”的抽象概念,我们采用平均下游基准分数作为替代指标,特别针对与知识和常识、编码和数学推理相关的智能。
2024-09-07 20:49:11 633
原创 论文翻译:ICLR-2024 DYVAL: DYNAMIC EVALUATION OF LARGE LANGUAGE MODELS FOR REASONING TASKS
大型语言模型(LLMs)在各种评估基准测试中取得了显著的性能。然而,人们对于其庞大的训练语料库中潜在的数据污染问题表示担忧。此外,当前基准测试的静态性质和固定复杂性可能无法充分衡量LLMs不断进步的能力。在本文中,我们介绍了DYVAL,这是一个用于动态评估LLMs的通用且灵活的协议。基于我们的框架,我们构建了图信息DYVAL,利用有向无环图的结构优势来动态生成具有可控复杂性的评估样本。DYVAL在包括数学、逻辑推理和算法问题在内的推理任务上生成了具有挑战性的评估集。
2024-09-07 20:37:15 627
原创 论文翻译:ICLR-2024 TIME TRAVEL IN LLMS: TRACING DATA CONTAMINATION IN LARGE LANGUAGE MODELS
数据污染,即在大型语言模型(LLMs)的训练数据中存在下游任务的测试数据,是衡量LLMs在其他任务上真实有效性的潜在重大问题。我们提出了一种简单但有效的识别LLMs中数据污染的方法。我们的方法核心是从实例级别开始识别潜在污染;利用这些信息,我们的方法接着在分区级别评估更广泛的污染。为了估计单个实例的污染,我们采用了“引导指令”:一个提示,包括数据集名称、分区类型和参考实例的随机长度初始片段,要求LLM完成它。如果LLM的输出与参考的后半部分完全或几乎匹配,则将该实例标记为污染。为了理解整个分区是否受到污染。
2024-09-07 20:27:26 917
原创 论文翻译:ICLR-2024.Oren.PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS
大型语言模型是在大量互联网数据上训练的,这引发了人们的担忧和猜测,即它们可能已经记住了公共基准测试。从猜测到证明污染的存在是具有挑战性的,因为专有模型使用的预训练数据通常并不公开。我们展示了一种方法,可以在不访问预训练数据或模型权重的情况下,为语言模型提供可证明的测试集污染保证。我们的方法利用了一个事实,即如果没有数据污染,所有可交换基准测试的排序都应该同样可能。相比之下,语言模型倾向于记忆示例顺序,这意味着一个被污染的语言模型会发现某些规范排序比其他排序更有可能。我们的。
2024-09-07 20:11:05 1282
原创 论文翻译:ACL-2024 S3Eval: A Synthetic, Scalable, Systematic Evaluation Suite for Large Language Model
大型语言模型(LLMs)的快速发展在模型能力上取得了巨大进步,如长文本理解和推理。然而,随着LLMs能够处理更长的上下文,评估它们是否获得了某些能力变得更加具有挑战性,因为它们能够处理的文本长度(例如,200K个标记)远远超过了人类在合理时间内可靠评估的范围。在本文中,我们提出了使用复杂的合成任务作为代理评估方法,并介绍了S3EVAL,这是一个综合、可扩展、系统的LLMs评估套件。S3EVAL的合成特性为用户提供了对数据集的完全控制,允许他们。
2024-09-07 19:43:05 472
原创 论文翻译:arxiv-2024.Cheng Xu.Benchmark Data Contamination of Large Language Models: A Survey
然而,当前还没有一项全面的、系统性的研究来深入讨论和定义这一问题。尽管有些研究认为这种现象是有益的 [12],或不将其视为问题 [16],但学术界的大多数研究认为,BDC对LLM评估的可靠性和有效性构成了重大挑战,削弱了对其输出的信任,阻碍了其在现实中的应用 [69, 83, 98, 119, 126, 178]。一些有前途的方案被提出,例如通过使用LLM重新生成基准数据 [158, 180, 181],以减少BDC的影响,以及基准无关评估 [24, 87, 166],试图避免完全依赖预定义的基准。
2024-09-07 19:32:52 1046
原创 论文翻译:arxiv-2024.Xu.Benchmarking Benchmark Leakage in Large Language Models
随着预训练数据使用的不断扩大,基准数据集泄露现象变得越来越突出,这种情况因大型语言模型(LLMs)训练过程的不透明性以及监督数据的经常未披露的包含而加剧。这个问题扭曲了基准测试的有效性,并促进了可能不公平的比较,阻碍了该领域的健康发展。为了解决这个问题,我们引入了一个利用困惑度和N-gram准确性这两个简单且可扩展的指标来衡量模型在基准测试上的预测精度的检测流程,以识别潜在的数据泄露。通过在数学推理的背景下分析31个LLMs,我们揭示了大量的训练甚至测试集误用的情况,导致可能不公平的比较。
2024-09-07 19:19:24 1225
原创 论文翻译:arxiv-2024 ConStat: Performance-Based Contamination Detection in Large Language Models
公共基准测试在评估大型语言模型(LLM)中起着至关重要的作用。然而,数据污染可能导致性能虚高,使它们在模型比较中变得不可靠。因此,检测污染并估计其对测量性能的影响至关重要。不幸的是,现有的检测方法容易被规避,并且无法量化污染。为了克服这些限制,我们提出了一种新的污染定义,即人为夸大且不具有泛化能力的基准测试性能,而不是将基准测试样本包含在训练数据中。这种观点使我们能够检测任何性能虚高的模型,即不泛化到重新表述的样本、来自相同分布的合成样本或同一任务的不同基准测试的性能。
2024-09-07 18:41:10 574
原创 论文翻译:arxiv-2024 Data Contamination Calibration for Black-box LLMs
大型语言模型(LLMs)的快速发展与训练数据规模的扩大密切相关。然而,未经检查的超大规模训练集引入了一系列潜在风险,如数据污染,即基准测试数据被用于训练。在这项工作中,我们提出了一种名为极化增强校准(PAC)的整体方法,以及一个名为StackMIA的全新数据集,以帮助检测污染数据并减少污染影响。PAC扩展了机器学习社区流行的MIA(成员推断攻击)——通过形成一个更全局的目标来检测训练数据,以澄清看不见的训练数据。
2024-09-07 18:05:53 840
原创 论文翻译:arxiv-2024 Data Contamination Can Cross Language Barriers
在开发大型语言模型(LLMs)的过程中存在的不透明性,引发了对预训练数据中公共基准测试潜在污染的日益关注。现有的污染检测方法通常基于训练和评估数据之间的文本重叠,这可能过于表面化,无法反映更深层次的污染形式。在本文中,我们首先提出了一种跨语言的污染形式,它在逃避当前检测方法的同时,通过过度拟合LLMs在基准测试集的翻译版本上来夸大LLMs的性能。然后,我们提出了基于泛化的方法来揭示这种深层次隐藏的污染。具体来说,我们检查了通过用其他问题的正确答案替换原始基准中的虚假答案选择后,LLM的性能变化。
2024-09-07 16:13:13 897
原创 论文翻译:ACL-2022 Data Contamination: From Memorization to Exploitation
预训练语言模型通常在基于网络的大规模数据集上进行训练,这些数据集往往与下游测试集“污染”。目前尚不清楚模型在多大程度上利用这些污染数据来完成下游任务。我们提出了一种有原则的方法来研究这个问题。我们在维基百科和标记的下游数据集的联合语料库上预训练BERT模型,并在相关任务上对其进行微调。比较预训练期间见过和未见过的样本的性能,使我们能够定义和量化记忆和利用的水平。两个模型和三个下游任务的实验表明,在某些情况下存在利用,但在其他情况下,模型记忆了污染数据,但没有利用它。
2024-09-07 15:50:55 886
原创 论文翻译:arxiv-2024 DICE: Detecting In-distribution Contamination in LLM’s Fine-tuning Phase for Math
大型语言模型(LLM)的进步依赖于使用公共基准进行评估,但数据污染可能导致性能被高估。以往的研究集中在通过确定模型在训练期间是否见过完全相同的数据来检测污染。在这项工作中,我们认为即使在与基准数据相似的数据上训练也会在分布内任务上提高性能,而不会提高整体能力,我们称之为分布内污染。为了有效检测分布内污染,我们提出了DICE,这是一种新方法,它利用LLM的内部状态来定位然后检测污染。DICE首先识别对污染最敏感的层,然后基于该层的内部状态训练分类器。
2024-09-07 15:36:57 750
原创 论文翻译:arxiv-2024 Evading Data Contamination Detection for Language Models is (too) Easy
大型语言模型(LLMs)广泛存在,它们在基准测试中的表现经常指导用户偏好一个模型而不是另一个。然而,这些模型训练所用的大量数据可能会无意中导致与公共基准测试的数据污染,从而破坏性能测量。尽管最近开发的数据污染检测方法试图解决这个问题,但它们忽略了恶意模型提供者故意污染以逃避检测的可能性。我们认为这种情况至关重要,因为它对公共基准测试用于LLM评估的可靠性产生了怀疑。为了更严格地研究这个问题,我们提出了模型提供者和数据污染检测方法的分类。
2024-09-07 15:05:30 490
原创 论文翻译:arxiv-2024 Generalization or Memorization: Data Contamination and Trustworthy Evaluation for
关于大型语言模型(LLMs)令人印象深刻的能力的最近声明通常通过在开放获取的基准测试上进行评估来支持。考虑到LLMs训练数据的庞大规模和广泛来源,它可能明确或隐含地包括测试数据,导致LLMs更容易受到数据污染。然而,由于训练数据的不透明性、模型的黑箱访问以及合成训练数据的快速增长,检测和减轻LLMs的数据污染面临重大挑战。在本文中,我们提出了CDD,即通过LLMs的输出分布进行污染检测。CDD只需要采样文本来检测数据污染,通过识别LLM输出分布的峰值度。
2024-09-07 11:17:38 700
原创 论文翻译:arxiv-2024.Deng. Investigating Data Contamination for Pre-training Language Models
在网络规模的语料库上预训练的语言模型在多种下游任务上展示了令人印象深刻的能力。然而,人们越来越担心这些能力是否可能源于评估数据集包含在预训练语料库中——这种现象被称为数据污染——以一种人为提高性能的方式。目前对于这种潜在污染如何影响语言模型在下游任务上的性能还知之甚少。在本文中,我们通过从头开始预训练一系列GPT-2模型,探索了预训练阶段数据污染的影响。我们强调了评估数据的文本污染(即评估样本的输入文本)和真实污染(即对输入的提示和期望输出)的影响。我们还研究了对各种下游任务重复污染的效果。
2024-09-07 11:12:41 920
原创 论文翻译:arxiv-2024 Min-K%++: Improved Baseline for Detecting Pre-Training Data from Large Language
大型语言模型(LLMs)的预训练数据检测问题因其在版权侵犯和测试数据污染等关键问题上的影响而受到越来越多的关注。尽管性能有所提高,但现有的方法(包括最先进的Min-K%)大多基于简单的启发式规则,缺乏坚实的、合理的基础。在这项工作中,我们提出了一种新的、理论上有动机的预训练数据检测方法,名为Min-K%++。具体来说,我们提出了一个关键见解:通过最大似然训练,训练样本倾向于成为模型分布沿每个输入维度的局部最大值,这反过来使我们能够将问题有洞察力地转化为局部最大值的识别。
2024-09-07 10:55:03 471
原创 论文翻译:ICML-2023 Physics of Language Models: Part 3.1, Knowledge Storage and Extraction
大型语言模型(LLMs)能够存储大量的世界知识,通常可以通过问答(例如,“亚伯拉罕·林肯的生日是什么时候?”)来提取。然而,它们回答这类问题是基于在训练期间接触到类似问题(即,作弊),还是通过真正学习从像维基百科这样的来源提取知识?在本文中,我们使用一个受控的传记数据集来调查这个问题。我们发现模型提取知识的能力与训练数据的各种多样性度量之间存在强烈的相关性。本质上,为了可靠地提取知识,它必须在预训练期间得到充分的增强(例如,通过改写、句子洗牌)。
2024-09-07 10:32:31 707
原创 论文翻译:arXiv-2023 Rethinking Benchmark and Contamination for Language Models with Rephrased Samples
大型语言模型越来越多地在人类产生的所有数据上进行训练。由于预训练或微调数据集中的潜在污染,许多人对公共基准测试的可信度提出了担忧。虽然大多数数据去污染工作应用字符串匹配(例如,n-gram重叠)来删除基准测试数据,但我们表明这些方法是不够的,简单的测试数据变化(例如,释义,翻译)可以轻易绕过这些去污染措施。此外,我们证明如果这种测试数据的变化没有消除,一个13B模型可以轻易地过度拟合一个测试基准,并实现与GPT-4相当的极高性能。
2024-09-07 09:32:29 663
原创 论文翻译:ACL-2024 Unveiling the Spectrum of Data Contamination in Language Models: A Survey from
电脑在大型语言模型(LLMs)的时代,由于依赖于广泛的互联网衍生的训练语料库,数据污染问题引起了越来越多的关注。训练语料库与评估基准的重叠问题——被称为污染——已成为近期重要研究的焦点。这些工作旨在识别污染,理解其影响,并从不同角度探索缓解策略。然而,在这个新兴领域,缺乏从基础概念到高级洞察的清晰路径的全面研究。因此,我们提供了一个关于数据污染领域的全面综述,概述了关键问题、方法和迄今为止的发现,并强调了需要进一步研究和发展的领域。特别是,我们首先检查了数据污染在不同阶段和形式的影响。
2024-09-07 00:07:03 86
原创 课堂教学行为时间序列分析-学生教师
每个行为如answer: "[0,1,1,1,0,1,0,1,…长度是一个视频的长度(单位为秒),每列出现1代表当前这一秒的行为,如果有一个行为在某一秒为1,那么其他行为在这一秒必定为0,比如第2秒是answer,那么blackboardWriting、discuss等这些行为在这一秒都是0。注意,上面的行为序列长度的answer少了两列,这是因为行为序列是从教师视角和学生视角 两个视频采集的,两个视频长度有点差异。我们将行为数据整理到了。
2024-09-05 11:10:06 272
原创 论文翻译:An Evaluation System for Large Language Models based on Open-Ended Questions
我们设计了一个基于开放式问题的大语言模型评估系统。该系统使用开放式问题对大型语言模型(LLMs)进行了多维度评估,并以评估报告的形式呈现评估结果。目前,大语言模型的评估通常存在两个显著的限制(1)评估方法往往是单一的,导致结果可信度较低。(2)大多数评估基于封闭式问题数据集,将生成性大型语言模型视为判别性模型,这未能充分反映这些模型的高输出灵活性特点。针对这两个限制,我们提出了一个基于开放式问题的LLMs评估系统。我们在适配的开源数据集上的实验证明了该系统的有效性。
2024-09-03 20:25:21 667
转载 论文阅读:基于大模型的教学智能体构建与应用研究
随着生成式人工智能的快速发展,基于大模型的智能体已经逐步具备了多模态感知、检索增强生成、推理与规划、交互与进化等能力。该研究提出基于大模型的教学智能体的基本概念与框架,以“大模型”为技术核心,重点构建“教育任务设定”“教育任务规划”“教育能力实现与拓展”“教育内容记忆与反思”“交互协作与动态进化”多个功能模块,支持与多类型对象交互并实现动态进化,涵盖人机交互、多智能体交互以及环境交互。
2024-08-31 14:48:24 203
22-8-6 mmaction2 slowfast训练配置 训练日志分析
2022-08-06
22-8-4 mmaction2 slowfast训练日志
2022-08-05
archery.mp4 行为识别 pytorchvideo demo演示视频(行为识别)
2022-07-30
archery.mp4 行为识别 pytorchvideo demo演示视频(行为识别)
2022-07-30
课堂学习行为测量系统的设计与实现_张鸿宇.caj
2021-04-15
基于深度学习的行为检测方法综述_高陈强.caj
2020-12-25
机器人抓取检测技术的研究现状_刘亚欣.caj
2020-12-11
Real-Time Grasp Detection Using Convolutional Neural Networks
2020-12-10
苹果采摘机器人末端执行器无损主动抓取技术研究
2020-11-24
基于卷积神经网络的二指机械手抓取姿态生成研究_李耿磊
2020-11-22
室内环境下移动机械臂的目标抓取技术.caj
2020-11-20
智能工业机器人的环境感知与运动规划.caj
2020-11-19
_移动机器人SLAM与路径规划方法研究.caj
2020-11-16
基于ROS视觉定位的机器人智能抓取系统研究_王海玲
2020-11-06
SLAM第四讲作业及资料.zip
2020-06-16
第四讲:相机模型与非线性优化.pptx
2020-06-16
SLAM第三讲作业资料.zip
2020-06-10
第二讲:三维空间的刚体运动.pptx
2020-06-09
生成式人工智能对课堂教学的变革影响 文 - 孙 众
2024-08-28
我国 2013-2023 年课堂视频分析的研究现状 * -基于 CiteSpace 的可视化林芷洁,杨玉宝
2024-08-28
表情分类模型-基于人脸 emotion.pth
2024-08-20
生成式 AI 商业落地白皮书 给 CXO 的 AI 转型战术指南
2024-07-28
读论文Rethinking the Role of Demonstrations What Makes In-Context
2024-03-09
读论文Rethinking the Role of Demonstrations What Makes In-Context
2024-03-09
rfb-face-mask.pth
2023-08-09
latest-model-099-94.7200.pth
2023-08-09
适用于Yolo训练和测试的coco数据集标签文件 train2017.txt和val2017.txt
2023-05-06
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人