自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(331)
  • 资源 (27)
  • 收藏
  • 关注

原创 大语言模型-教育方向数据集

大语言模型-教育方向数据集。

2024-09-19 11:08:48 213

原创 大模型数据污染

论文翻译:arxiv-2024 Estimating Contamination via Perplexity: Quantifying Memorisation in Language Model 高论文翻译:ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS 高论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Sur

2024-09-14 14:34:50 506

原创 大模型提示词安全

翻译:arXiv-2023 PromptRobust: Towards Evaluating the Robustness of Large Language Models on

2024-09-11 10:19:33 156

原创 2024-9-18 大语言模型问题 美团王兴:745万骑手获800亿报酬,人均多少问题

我就产生了个问题,745万骑手获800亿报酬,人均多少钱。我就把这个问题输入到各个大模型,结果答案不一致,并且差异还挺大的。

2024-09-18 12:11:15 196

原创 论文翻译 2023-ACL.Justus Mattern.Membership Inference Attacks against Language Models via Neighbourhood

成员推理攻击(MIAs)旨在预测一个数据样本是否出现在机器学习模型的训练数据中,它们被广泛用于评估语言模型的隐私风险。大多数现有的攻击依赖于这样一个观察:模型倾向于为训练样本分配比非训练点更高的概率。然而,简单地将模型得分作为阈值来孤立判断,往往会导致高误报率,因为它没有考虑到样本的内在复杂性。最近的工作已经证明,通过将模型得分与在类似数据上训练的参考模型获得的得分进行比较,基于参考的攻击可以显著提高MIAs的性能。

2024-09-16 23:02:40 883

原创 论文翻译:arxiv-2024 Training on the Benchmark Is Not All You Need

Training on the Benchmark Is Not All You Needhttps://arxiv.org/pdf/2409.01790标题:基准测试并非你所需的全部摘要:大型语言模型(LLMs)的成功在很大程度上依赖于在预训练阶段学习的大量预训练数据。预训练过程的不透明性和训练数据使得许多基准测试的结果变得不可靠。如果任何模型在基准测试集上进行过训练,它将严重阻碍该领域的健康发展。为了自动化和高效地测试大型语言模型的能力,众多主流基准测试采用了多项选择格式。由于多项选择选项内容的

2024-09-14 07:23:23 1061

原创 论文翻译:ACL-2024 CCF-A How Johnny Can Persuade LLMs to Jailbreak Them: Rethinking Persuasion to

大多数传统的AI安全研究将AI模型视为机器,并以安全专家开发的、以算法为中心的攻击为主。随着大型语言模型(LLM)变得越来越普遍和能干,非专家用户在日常互动中也可能带来风险。本文提出了一个新的视角,将LLM视为类人沟通者来越狱,以探索日常语言互动与AI安全之间被忽视的交叉点。具体来说,我们研究了如何说服LLM进行越狱。首先,我们提出了一个源自数十年社会科学研究的说服分类法。然后,我们将这个分类法应用于自动生成可解释的说服性对抗性提示(PAP)来越狱LLM。

2024-09-12 16:50:41 495

原创 使用OpenCV进行模糊检测(拉普拉斯算子)

【代码】使用OpenCV进行模糊检测(拉普拉斯算子)

2024-09-12 15:56:08 411

原创 论文翻译:ACL-2024 CCF-A radSafe: Detecting Jailbreak Prompts for LLMs via Safety-Critical Gradient

大型语言模型(LLMs)面临着越狱提示的威胁。现有的检测越狱提示的方法主要是在线内容审核API或微调后的LLMs。然而,这些策略通常需要广泛且资源密集的数据收集和训练过程。在这项研究中,我们提出了GradSafe,它通过仔细检查LLMs中安全关键参数的梯度来有效检测越狱提示。我们的方法基于一个关键的观察:越狱提示与遵从性回应(如“当然”)配对时,LLMs损失的梯度在某些安全关键参数上显示出相似的模式。相比之下,安全提示导致不同的梯度模式。

2024-09-12 12:58:11 526

原创 论文翻译:IEEE-2023 Analyzing leakage of personally identifiable information in language models

语言模型(LM)已被证明可以通过句子级别的成员推断和重建攻击泄露训练数据信息。对LM泄露个人身份信息(Personally Identifiable Information, PII)的风险理解受到了较少的关注,这可以归因于错误地假设数据集策划技术(如擦除)足以防止PII泄露。擦除技术减少了但并未阻止PII泄露的风险:在实践中,擦除是不完美的,并且必须在最小化披露和保留数据集效用之间权衡。另一方面,尚不清楚算法防御措施(如差分隐私)在多大程度上防止了PII披露,这些措施旨在保证句子或用户级别的隐私。

2024-09-12 10:18:14 830

原创 论文翻译:USENIX-2021 Extracting Training Data from Large Language Models

现在,发布在私有数据集上训练的大型(数十亿参数)语言模型已经变得很常见。本文展示了在这种设置中,攻击者可以通过查询语言模型来恢复个别训练样本,从而执行训练数据提取攻击。我们在GPT-2上展示了我们的攻击,GPT-2是一个在公共互联网抓取的数据上训练的语言模型,我们能够从模型的训练数据中提取数百个逐字文本序列。这些提取的示例包括(公共)个人身份信息(姓名、电话号码和电子邮件地址)、IRC对话、代码和128位UUID。即使在训练数据中每个上述序列只包含在一个文档中,我们的攻击也是可能的。

2024-09-12 09:50:47 1214

原创 论文翻译:arxiv-2023 Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs

随着大型语言模型(LLMs)的快速发展,出现了新的、难以预测的有害能力。这要求开发者能够通过评估“危险能力”来识别风险,以便负责任地部署LLMs。在这项工作中,我们收集了第一个开源数据集,用于评估LLMs中的安全保障,并以低成本部署更安全的开源LLMs。我们的数据集经过策划和筛选,只包含负责任的语言模型不应遵循的指令。我们注释并评估了六个流行的LLMs对这些指令的响应。基于我们的注释,我们继续训练了几个类似BERT的分类器,并发现这些小型分类器在自动安全评估上能够取得与GPT-4相当的成果。

2024-09-11 15:03:29 599

原创 论文翻译:ACM-2023 Not what you‘ve signed up for: Compromising real-world llm-integrated applications

大型语言模型(LLMs)正越来越多地被集成到各种应用程序中。最近的LLMs的功能可以通过自然语言提示灵活调节。这使它们容易受到针对性的对抗性提示的影响,例如,提示注入(PI)攻击使攻击者能够覆盖原始指令和使用的控制。到目前为止,人们一直假设是用户直接提示LLM。但是,如果不是用户提示呢?我们认为,集成了LLM的应用模糊了数据和指令之间的界限。我们揭示了新的攻击向量,使用间接提示注入,使对手能够在没有直接界面的情况下远程利用集成了LLM的应用,通过策略性地将提示注入到可能被检索的数据中。

2024-09-11 12:05:58 1026

原创 论文翻译:arxiv-2022 Ignore Previous Prompt: Attack Techniques For Language Models

基于Transformer的大型语言模型(LLMs)为大规模面向客户的应用程序中的自然语言任务提供了强大的基础。然而,探索恶意用户互动中出现的漏洞的研究却很少。通过提出PROMPTINJECT,一个基于掩码的迭代对抗性提示组合的平淡对齐框架,我们检验了GPT-3(生产中部署最广泛的语言模型)如何容易被简单的手工输入所误导。特别是,我们研究了两种类型的攻击——目标劫持和提示泄露——并展示了即使是低能力的,但足够恶意的代理,也可以轻易利用GPT-3的随机性,造成长尾风险。

2024-09-11 11:12:57 1201

原创 论文翻译:PMLR-2023 Automatically Auditing Large Language Models via Discrete Optimization

对大型语言模型进行审计以发现意外行为对于预防灾难性的部署至关重要,但这一任务仍然具有挑战性。在这项工作中,我们将审计视为一个优化问题,其中我们自动搜索匹配期望目标行为的输入-输出对。例如,我们可能旨在找到一个以“Barack Obama”开头的非毒性输入,而模型将其映射到一个有毒的输出。这个优化问题难以解决,因为可行点集稀疏,空间是离散的,而且我们审计的语言模型是非线性和高维的。为了应对这些挑战,我们引入了一个离散优化算法ARCA,它联合并高效地优化输入和输出。

2024-09-11 11:02:31 598

原创 论文翻译:arxiv-2024 KIEval: A Knowledge-grounded Interactive Evaluation Framework for Large Language

大型语言模型(LLMs)的自动评估方法受到数据污染的阻碍,导致对它们有效性的评估过高。现有的策略,旨在检测污染文本,专注于量化污染状态,而不是准确衡量模型性能。在本文中,我们介绍了KIEval,一个知识基础的交互式评估框架,首次引入了一个由LLM驱动的“交互者”角色,以实现动态的、抗污染的评估。从涉及特定领域知识的常规LLM基准测试中的问题开始,KIEval利用动态生成的、多轮次的、知识集中的对话来确定模型的回应是否仅仅是对基准答案的回忆,还是展示了在更复杂对话中应用知识的深层理解。

2024-09-07 21:06:22 604

原创 论文翻译:arxiv-2024 Estimating Contamination via Perplexity: Quantifying Memorisation in Language Model

大型语言模型(LLMs)的自动评估方法受到数据污染的阻碍,导致对它们有效性的评估过高。现有的策略,旨在检测污染文本,专注于量化污染状态,而不是准确衡量模型性能。在本文中,我们介绍了KIEval,一个知识基础的交互式评估框架,首次引入了一个由LLM驱动的“交互者”角色,以实现动态的、抗污染的评估。从涉及特定领域知识的常规LLM基准测试中的问题开始,KIEval利用动态生成的、多轮次的、知识集中的对话来确定模型的回应是否仅仅是对基准答案的回忆,还是展示了在更复杂对话中应用知识的深层理解。

2024-09-07 21:03:49 564

原创 论文翻译:arxiv-2024 Data Contamination Quiz: A Tool to Detect and Estimate Contamination in Large

我们提出了数据污染测验(Data Contamination Quiz,DCQ),这是一种简单有效的检测大型语言模型(LLMs)中数据污染的方法,并估计污染的程度。具体来说,我们将数据污染检测构建为一系列多项选择问题,并设计了一种测验格式,其中从特定数据集分区(例如,GSM8k测试集)的每个子样本实例创建三个扰动版本。这些变化仅包括单词级别的扰动。生成的扰动,连同原始数据集实例,构成了DCQ中的选项,额外提供一个选项以容纳选择无提供选项的可能性。

2024-09-07 20:57:22 624

原创 论文翻译:arxiv-2024 Compression Represents Intelligence Linearly

有一种观点认为,学会压缩将导致智能(Hutter, 2006)。最近,语言建模已被证明等同于压缩,这为大型语言模型(LLMs)的成功提供了一个有说服力的理由:更先进的语言模型的发展本质上是增强压缩,从而促进智能。尽管有这样吸引人的讨论,但关于压缩和智能之间相互作用的经验证据很少。在这项工作中,我们在LLMs的背景下检验它们的关系,将LLMs视为数据压缩器。鉴于“智能”的抽象概念,我们采用平均下游基准分数作为替代指标,特别针对与知识和常识、编码和数学推理相关的智能。

2024-09-07 20:49:11 633

原创 论文翻译:ICLR-2024 DYVAL: DYNAMIC EVALUATION OF LARGE LANGUAGE MODELS FOR REASONING TASKS

大型语言模型(LLMs)在各种评估基准测试中取得了显著的性能。然而,人们对于其庞大的训练语料库中潜在的数据污染问题表示担忧。此外,当前基准测试的静态性质和固定复杂性可能无法充分衡量LLMs不断进步的能力。在本文中,我们介绍了DYVAL,这是一个用于动态评估LLMs的通用且灵活的协议。基于我们的框架,我们构建了图信息DYVAL,利用有向无环图的结构优势来动态生成具有可控复杂性的评估样本。DYVAL在包括数学、逻辑推理和算法问题在内的推理任务上生成了具有挑战性的评估集。

2024-09-07 20:37:15 627

原创 论文翻译:ICLR-2024 TIME TRAVEL IN LLMS: TRACING DATA CONTAMINATION IN LARGE LANGUAGE MODELS

数据污染,即在大型语言模型(LLMs)的训练数据中存在下游任务的测试数据,是衡量LLMs在其他任务上真实有效性的潜在重大问题。我们提出了一种简单但有效的识别LLMs中数据污染的方法。我们的方法核心是从实例级别开始识别潜在污染;利用这些信息,我们的方法接着在分区级别评估更广泛的污染。为了估计单个实例的污染,我们采用了“引导指令”:一个提示,包括数据集名称、分区类型和参考实例的随机长度初始片段,要求LLM完成它。如果LLM的输出与参考的后半部分完全或几乎匹配,则将该实例标记为污染。为了理解整个分区是否受到污染。

2024-09-07 20:27:26 917

原创 论文翻译:ICLR-2024.Oren.PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

大型语言模型是在大量互联网数据上训练的,这引发了人们的担忧和猜测,即它们可能已经记住了公共基准测试。从猜测到证明污染的存在是具有挑战性的,因为专有模型使用的预训练数据通常并不公开。我们展示了一种方法,可以在不访问预训练数据或模型权重的情况下,为语言模型提供可证明的测试集污染保证。我们的方法利用了一个事实,即如果没有数据污染,所有可交换基准测试的排序都应该同样可能。相比之下,语言模型倾向于记忆示例顺序,这意味着一个被污染的语言模型会发现某些规范排序比其他排序更有可能。我们的。

2024-09-07 20:11:05 1282

原创 论文翻译:ACL-2024 S3Eval: A Synthetic, Scalable, Systematic Evaluation Suite for Large Language Model

大型语言模型(LLMs)的快速发展在模型能力上取得了巨大进步,如长文本理解和推理。然而,随着LLMs能够处理更长的上下文,评估它们是否获得了某些能力变得更加具有挑战性,因为它们能够处理的文本长度(例如,200K个标记)远远超过了人类在合理时间内可靠评估的范围。在本文中,我们提出了使用复杂的合成任务作为代理评估方法,并介绍了S3EVAL,这是一个综合、可扩展、系统的LLMs评估套件。S3EVAL的合成特性为用户提供了对数据集的完全控制,允许他们。

2024-09-07 19:43:05 472

原创 论文翻译:arxiv-2024.Cheng Xu.Benchmark Data Contamination of Large Language Models: A Survey

然而,当前还没有一项全面的、系统性的研究来深入讨论和定义这一问题。尽管有些研究认为这种现象是有益的 [12],或不将其视为问题 [16],但学术界的大多数研究认为,BDC对LLM评估的可靠性和有效性构成了重大挑战,削弱了对其输出的信任,阻碍了其在现实中的应用 [69, 83, 98, 119, 126, 178]。一些有前途的方案被提出,例如通过使用LLM重新生成基准数据 [158, 180, 181],以减少BDC的影响,以及基准无关评估 [24, 87, 166],试图避免完全依赖预定义的基准。

2024-09-07 19:32:52 1046

原创 论文翻译:arxiv-2024.Xu.Benchmarking Benchmark Leakage in Large Language Models

随着预训练数据使用的不断扩大,基准数据集泄露现象变得越来越突出,这种情况因大型语言模型(LLMs)训练过程的不透明性以及监督数据的经常未披露的包含而加剧。这个问题扭曲了基准测试的有效性,并促进了可能不公平的比较,阻碍了该领域的健康发展。为了解决这个问题,我们引入了一个利用困惑度和N-gram准确性这两个简单且可扩展的指标来衡量模型在基准测试上的预测精度的检测流程,以识别潜在的数据泄露。通过在数学推理的背景下分析31个LLMs,我们揭示了大量的训练甚至测试集误用的情况,导致可能不公平的比较。

2024-09-07 19:19:24 1225

原创 论文翻译:arxiv-2024 ConStat: Performance-Based Contamination Detection in Large Language Models

公共基准测试在评估大型语言模型(LLM)中起着至关重要的作用。然而,数据污染可能导致性能虚高,使它们在模型比较中变得不可靠。因此,检测污染并估计其对测量性能的影响至关重要。不幸的是,现有的检测方法容易被规避,并且无法量化污染。为了克服这些限制,我们提出了一种新的污染定义,即人为夸大且不具有泛化能力的基准测试性能,而不是将基准测试样本包含在训练数据中。这种观点使我们能够检测任何性能虚高的模型,即不泛化到重新表述的样本、来自相同分布的合成样本或同一任务的不同基准测试的性能。

2024-09-07 18:41:10 574

原创 论文翻译:arxiv-2024 Data Contamination Calibration for Black-box LLMs

大型语言模型(LLMs)的快速发展与训练数据规模的扩大密切相关。然而,未经检查的超大规模训练集引入了一系列潜在风险,如数据污染,即基准测试数据被用于训练。在这项工作中,我们提出了一种名为极化增强校准(PAC)的整体方法,以及一个名为StackMIA的全新数据集,以帮助检测污染数据并减少污染影响。PAC扩展了机器学习社区流行的MIA(成员推断攻击)——通过形成一个更全局的目标来检测训练数据,以澄清看不见的训练数据。

2024-09-07 18:05:53 840

原创 论文翻译:arxiv-2024 Data Contamination Can Cross Language Barriers

在开发大型语言模型(LLMs)的过程中存在的不透明性,引发了对预训练数据中公共基准测试潜在污染的日益关注。现有的污染检测方法通常基于训练和评估数据之间的文本重叠,这可能过于表面化,无法反映更深层次的污染形式。在本文中,我们首先提出了一种跨语言的污染形式,它在逃避当前检测方法的同时,通过过度拟合LLMs在基准测试集的翻译版本上来夸大LLMs的性能。然后,我们提出了基于泛化的方法来揭示这种深层次隐藏的污染。具体来说,我们检查了通过用其他问题的正确答案替换原始基准中的虚假答案选择后,LLM的性能变化。

2024-09-07 16:13:13 897

原创 论文翻译:ACL-2022 Data Contamination: From Memorization to Exploitation

预训练语言模型通常在基于网络的大规模数据集上进行训练,这些数据集往往与下游测试集“污染”。目前尚不清楚模型在多大程度上利用这些污染数据来完成下游任务。我们提出了一种有原则的方法来研究这个问题。我们在维基百科和标记的下游数据集的联合语料库上预训练BERT模型,并在相关任务上对其进行微调。比较预训练期间见过和未见过的样本的性能,使我们能够定义和量化记忆和利用的水平。两个模型和三个下游任务的实验表明,在某些情况下存在利用,但在其他情况下,模型记忆了污染数据,但没有利用它。

2024-09-07 15:50:55 886

原创 论文翻译:arxiv-2024 DICE: Detecting In-distribution Contamination in LLM’s Fine-tuning Phase for Math

大型语言模型(LLM)的进步依赖于使用公共基准进行评估,但数据污染可能导致性能被高估。以往的研究集中在通过确定模型在训练期间是否见过完全相同的数据来检测污染。在这项工作中,我们认为即使在与基准数据相似的数据上训练也会在分布内任务上提高性能,而不会提高整体能力,我们称之为分布内污染。为了有效检测分布内污染,我们提出了DICE,这是一种新方法,它利用LLM的内部状态来定位然后检测污染。DICE首先识别对污染最敏感的层,然后基于该层的内部状态训练分类器。

2024-09-07 15:36:57 750

原创 论文翻译:arxiv-2024 Evading Data Contamination Detection for Language Models is (too) Easy

大型语言模型(LLMs)广泛存在,它们在基准测试中的表现经常指导用户偏好一个模型而不是另一个。然而,这些模型训练所用的大量数据可能会无意中导致与公共基准测试的数据污染,从而破坏性能测量。尽管最近开发的数据污染检测方法试图解决这个问题,但它们忽略了恶意模型提供者故意污染以逃避检测的可能性。我们认为这种情况至关重要,因为它对公共基准测试用于LLM评估的可靠性产生了怀疑。为了更严格地研究这个问题,我们提出了模型提供者和数据污染检测方法的分类。

2024-09-07 15:05:30 490

原创 论文翻译:arxiv-2024 Generalization or Memorization: Data Contamination and Trustworthy Evaluation for

关于大型语言模型(LLMs)令人印象深刻的能力的最近声明通常通过在开放获取的基准测试上进行评估来支持。考虑到LLMs训练数据的庞大规模和广泛来源,它可能明确或隐含地包括测试数据,导致LLMs更容易受到数据污染。然而,由于训练数据的不透明性、模型的黑箱访问以及合成训练数据的快速增长,检测和减轻LLMs的数据污染面临重大挑战。在本文中,我们提出了CDD,即通过LLMs的输出分布进行污染检测。CDD只需要采样文本来检测数据污染,通过识别LLM输出分布的峰值度。

2024-09-07 11:17:38 700

原创 论文翻译:arxiv-2024.Deng. Investigating Data Contamination for Pre-training Language Models

在网络规模的语料库上预训练的语言模型在多种下游任务上展示了令人印象深刻的能力。然而,人们越来越担心这些能力是否可能源于评估数据集包含在预训练语料库中——这种现象被称为数据污染——以一种人为提高性能的方式。目前对于这种潜在污染如何影响语言模型在下游任务上的性能还知之甚少。在本文中,我们通过从头开始预训练一系列GPT-2模型,探索了预训练阶段数据污染的影响。我们强调了评估数据的文本污染(即评估样本的输入文本)和真实污染(即对输入的提示和期望输出)的影响。我们还研究了对各种下游任务重复污染的效果。

2024-09-07 11:12:41 920

原创 论文翻译:arxiv-2024 Min-K%++: Improved Baseline for Detecting Pre-Training Data from Large Language

大型语言模型(LLMs)的预训练数据检测问题因其在版权侵犯和测试数据污染等关键问题上的影响而受到越来越多的关注。尽管性能有所提高,但现有的方法(包括最先进的Min-K%)大多基于简单的启发式规则,缺乏坚实的、合理的基础。在这项工作中,我们提出了一种新的、理论上有动机的预训练数据检测方法,名为Min-K%++。具体来说,我们提出了一个关键见解:通过最大似然训练,训练样本倾向于成为模型分布沿每个输入维度的局部最大值,这反过来使我们能够将问题有洞察力地转化为局部最大值的识别。

2024-09-07 10:55:03 471

原创 论文翻译:ICML-2023 Physics of Language Models: Part 3.1, Knowledge Storage and Extraction

大型语言模型(LLMs)能够存储大量的世界知识,通常可以通过问答(例如,“亚伯拉罕·林肯的生日是什么时候?”)来提取。然而,它们回答这类问题是基于在训练期间接触到类似问题(即,作弊),还是通过真正学习从像维基百科这样的来源提取知识?在本文中,我们使用一个受控的传记数据集来调查这个问题。我们发现模型提取知识的能力与训练数据的各种多样性度量之间存在强烈的相关性。本质上,为了可靠地提取知识,它必须在预训练期间得到充分的增强(例如,通过改写、句子洗牌)。

2024-09-07 10:32:31 707

原创 论文翻译:arXiv-2023 Rethinking Benchmark and Contamination for Language Models with Rephrased Samples

大型语言模型越来越多地在人类产生的所有数据上进行训练。由于预训练或微调数据集中的潜在污染,许多人对公共基准测试的可信度提出了担忧。虽然大多数数据去污染工作应用字符串匹配(例如,n-gram重叠)来删除基准测试数据,但我们表明这些方法是不够的,简单的测试数据变化(例如,释义,翻译)可以轻易绕过这些去污染措施。此外,我们证明如果这种测试数据的变化没有消除,一个13B模型可以轻易地过度拟合一个测试基准,并实现与GPT-4相当的极高性能。

2024-09-07 09:32:29 663

原创 论文翻译:ACL-2024 Unveiling the Spectrum of Data Contamination in Language Models: A Survey from

电脑在大型语言模型(LLMs)的时代,由于依赖于广泛的互联网衍生的训练语料库,数据污染问题引起了越来越多的关注。训练语料库与评估基准的重叠问题——被称为污染——已成为近期重要研究的焦点。这些工作旨在识别污染,理解其影响,并从不同角度探索缓解策略。然而,在这个新兴领域,缺乏从基础概念到高级洞察的清晰路径的全面研究。因此,我们提供了一个关于数据污染领域的全面综述,概述了关键问题、方法和迄今为止的发现,并强调了需要进一步研究和发展的领域。特别是,我们首先检查了数据污染在不同阶段和形式的影响。

2024-09-07 00:07:03 86

原创 课堂教学行为时间序列分析-学生教师

每个行为如answer: "[0,1,1,1,0,1,0,1,…长度是一个视频的长度(单位为秒),每列出现1代表当前这一秒的行为,如果有一个行为在某一秒为1,那么其他行为在这一秒必定为0,比如第2秒是answer,那么blackboardWriting、discuss等这些行为在这一秒都是0。注意,上面的行为序列长度的answer少了两列,这是因为行为序列是从教师视角和学生视角 两个视频采集的,两个视频长度有点差异。我们将行为数据整理到了。

2024-09-05 11:10:06 272

原创 论文翻译:An Evaluation System for Large Language Models based on Open-Ended Questions

我们设计了一个基于开放式问题的大语言模型评估系统。该系统使用开放式问题对大型语言模型(LLMs)进行了多维度评估,并以评估报告的形式呈现评估结果。目前,大语言模型的评估通常存在两个显著的限制(1)评估方法往往是单一的,导致结果可信度较低。(2)大多数评估基于封闭式问题数据集,将生成性大型语言模型视为判别性模型,这未能充分反映这些模型的高输出灵活性特点。针对这两个限制,我们提出了一个基于开放式问题的LLMs评估系统。我们在适配的开源数据集上的实验证明了该系统的有效性。

2024-09-03 20:25:21 667

转载 论文阅读:基于大模型的教学智能体构建与应用研究

随着生成式人工智能的快速发展,基于大模型的智能体已经逐步具备了多模态感知、检索增强生成、推理与规划、交互与进化等能力。该研究提出基于大模型的教学智能体的基本概念与框架,以“大模型”为技术核心,重点构建“教育任务设定”“教育任务规划”“教育能力实现与拓展”“教育内容记忆与反思”“交互协作与动态进化”多个功能模块,支持与多类型对象交互并实现动态进化,涵盖人机交互、多智能体交互以及环境交互。

2024-08-31 14:48:24 203

人脸识别素材 4张人脸图

人脸识别素材 4张图

2022-11-29

22-8-6 mmaction2 slowfast训练配置 训练日志分析

包含配置文件: 训练日志:20220805_165139.log.json 训练配置:my_slowfast_kinetics_pretrained_r50_4x16x1_20e_ava_rgb.py 训练配置(为了测试训练集的效果):my_slowfast_kinetics_pretrained_r50_4x16x1_20e_ava_rgb2.py

2022-08-06

22-8-4 mmaction2 slowfast训练日志

22-8-4 mmaction2 slowfast训练日志 包含配置文件:my_slowfast_kinetics_pretrained_r50_4x16x1_20e_ava_rgb.py 训练结束后使用最好的checkpoint的参数进行测试,将测试结果存储在:part_0.pkl 训练过程的记录:20220804_185539.log.json

2022-08-05

archery.mp4 行为识别 pytorchvideo demo演示视频(行为识别)

https://pytorchvideo.org/docs/tutorial_torchhub_inference#load-an-example-video archery.mp4 pytorchvideo demo演示视频

2022-07-30

archery.mp4 行为识别 pytorchvideo demo演示视频(行为识别)

https://pytorchvideo.org/docs/tutorial_torchhub_inference#load-an-example-video archery.mp4 pytorchvideo demo演示视频

2022-07-30

pretrained model on ucf24

ucf_dla34_K7_rgb_coco.pth pretrained model on ucf24

2022-07-20

课堂学习行为测量系统的设计与实现_张鸿宇.caj

课堂是学校教育的核心,课堂教学过程评价对于教学质量的提高有重要意义,而学生的课堂行为表现是课堂教学评价的重要成分。通过评价学生的课堂行为,形成有效的反馈信息和教学导向,可以有效的促进课堂教学和学生的发展。因此,利用现在的计算机视觉技术和教学过程的相关测量手段相结合,对教室中的学生学习行为进行测量,形成对学生、对课堂的多维度的客观评价和反馈,对于提高课堂内的教学效率和教学质量有着重要的意义。本文在课堂学习场景下,研究了基于体感信息的学习者动作识别的算法以及相关应用系统的设计和实现。 论文的主要贡献是设计并实现了课堂学习场景下基于体感信息的多学习者行为测量系统:针对的Kinect骨骼数据特点,本文提出了基于人体上肢骨骼结构的姿态识别方法,该方法通过选用结构向量间的向量角和向量模比值作为最终的姿态向量特征,采用SVM分类器对姿态向量特征进行分类和识别;实现了一个集数据采集、识别、记录、分析和展示于一体的课堂行为识别系统,对课堂交互活动行为分析和课堂整体活跃态势进行了分析,并使用该系统进行了针对学习者个人评价和针对课堂活跃度评价的实验。 通过测试结果表明,本文提出的姿态识别方法能有效地识别多个学习者的举手、正坐和低头等姿态,该课堂行为识别系统具有一定的实用性;通过模拟课堂实验得出对于学生个人的参与度评价、每道题的难度评价、整个课堂活跃度的评价的实验性结论,对于课堂教学过程评价具有一定的参考意义。

2021-04-15

基于深度学习的行为检测方法综述_高陈强.caj

行为检测在自动驾驶、视频监控等领域的广阔应用前景使其成为了视频分析的研究热点。近年来,基于深度学习的方法在行为检测领域取得了巨大的进展,引起了国内外研究者的关注,对这些方法进行了全面的梳理和总结,介绍了行为检测任务的详细定义和面临的主要挑战; 从时序行为检测和时空行为检测 2 个方面对相关文献做了细致地分类,综合分析了每一类别中不同研究方法的思路和优缺点,并阐述了基于弱监督学习、图卷积神经网络、注意力机制等新兴研究话题的相关方法; 介绍了行为检测领域常用的数据集以及性能评估指标,在这些数据集上比较了几种典型方法的性能; 总结了当前行为检测方法需要解决的问题以及进一步发展的研究方向。

2020-12-25

机器人抓取检测技术的研究现状_刘亚欣.caj

基于学习的方法 机器学习方法已被证明对广泛的感知问题有效[32-36], 允许感知系统学习从一些特征集到各种视觉特性的映射[37]. 研究人员更是将深度学习引入抓取检测中,将学习方法应用于视觉中,引入学习方法对抓取质量进行评分[38]. 近期的文献采用了更丰富的特征和学习方法,允许机器人抓取部分被遮挡的已知物体[39] 或已知物体未知姿态[40] 以及系统之前未见过的全新物体(未知物体)[41],本文将讨论后一种情况. 早期的工作集中在仅从2D部分视图数据中检测单个抓取点,使用启发式方法基于此点确定机械手姿态[41]. 由于只有二维信息,第三维度的距离必须是固定的,抓取具有局限性,而3D数据的

2020-12-11

Real-Time Grasp Detection Using Convolutional Neural Networks

我们提出一种准确而且可以达到实时性能要求基于卷积神经网络的,机器人抓取检测方法。我们的抓取方法没有使用常见的滑动窗口或者区域选择技术,我们的网络只是使用single-stage回归去找到可抓取的包围检测框。模型的表现性能比当前最先进的方法也要高出十四个百分点(我想这里应该说的是准确率)。同时可以在单张GPU上能达到每秒十三帧图像的性能。我们的网络可以在对物体进行分类的同时,也可以做到找出可抓取部位的检测矩形框。在这个模型上我们也做了一些修改,使它可以对单个物体上预测多个抓取部位,实现的方法是基于一个局部受限预测机制,基于该机制的模型表现更好,尤其是物体有多个抓取方式的时候。

2020-12-10

苹果采摘机器人末端执行器无损主动抓取技术研究

在果蔬生产过程中,采摘环节是最耗时和耗力的环节,人工采摘的成本约占整个生产成本的 50%~70%。开展采摘机器人研究,不仅有利于解决人口老龄化和社会城镇化导致的劳动力日益短缺问题,还能促进我国农业科技进步,加速实现农业现代化。由于果蔬组织柔软、易损伤且生长程度不一,相互差异较大,导致采摘的损伤率较高。因此开展末端执行器抓取规划和控制策略的研究对实现采摘机器人的无损采摘具有重要意义,本文从采摘机器人末端执行器稳定抓取规划以及抓取力主动柔顺控制两个角度出发对采摘机器人无损抓取技术进行研究,主要研究内容如下: (2) 以力封闭作为理论基础,分析了两指稳定抓取条件,制定了两指稳定抓取策略。同时根据三

2020-11-24

基于卷积神经网络的二指机械手抓取姿态生成研究_李耿磊

本课题立足机械手自主抓取,研究利用卷积神经网络实现物体表面抓取点生成的解决方案。本课题以场景的深度图像作为输入信息,采取 “先采样,后预测”的两步走抓取生成方案。首先利用 Laplace 方法在深度图像中提取物体边缘像素点,并利用对跖法生成抓取空间;然后基于重要性采样方法从抓取空间中采样获得候选抓取集,最后利用训练好的抓取预测卷积神经网络模型预测候选集每个抓取的成功置信度,取其中极大者作为结果指导机器人完成抓取。 为将卷积神经网络应用于抓取预测,本课题建立了基于卷积神经网络的抓取预测模型。将抓取预测问题抽象为深度学习中的分类问题,网络输出为某抓取点属于成功抓取的置信度。本课题定义一组抓取为

2020-11-22

室内环境下移动机械臂的目标抓取技术.caj

随着科学技术的发展,机器人在人类的生产生活中扮演着越来越重要的角色。移动 机械臂是指以移动机器人为平台,在平台上安装机械臂的设备。移动机械臂不仅具有移机器人的环境感知和自主导航功能,还具有机械臂灵活的操作能力,被广泛的应用于工业生产、智能服务、太空工作及侦查排爆等领域。本文以移动机械臂的侦察排爆为背景,围绕移动机械臂的目标抓取任务,重点研究室内环境中移动机械臂的建图与导航、目标检测与抓取等关键技术。本文的主要工作包括以下几个方面: (1) 在Turtlebot2移动机器人平台上搭建PhantomX_ARM机械臂构成移动机械臂,并搭建 RPLIDAR A2 激光雷达传感器与 Xt

2020-11-20

智能工业机器人的环境感知与运动规划.caj

智能机器人是指能够自主完成特定任务的机器人,而对环境感知和运动规 划的研究则有助于提高机器人的自主性,使其更加智能化。环境感知主要是通 过各类视觉传感器采集点云或图像数据,并由计算机进行分析处理后,使机器 人系统能够获得环境中物体的各类信息。运动规划则是在环境感知的基础上, 通过规划出一条无碰轨迹来实现机器人的运动控制。 本文首先介绍各类传感器的标定方法,用以实现不同数据在坐标系下的统 一。在分析现有标定算法的基础上,利用 Navy 手眼标定法优化计算最小二乘 解,从而使标定精度达到毫米级;而基于两步法的单线激光传感器标定方法则 是在保证精度足够的前提下,有效地减少了计算量,从而提高了算法效

2020-11-19

_移动机器人SLAM与路径规划方法研究.caj

自动搬运是现代物流仓库实现自动化、智能化的基础。自主移动机器人 相对于传送带与传统AGV,面对未知环境有探索和决策能力,具有柔性强、 可重构环境的优点。本文对自主移动机器人同时定位与地图构建、路径规 划方法进行了深入研巧,主要内容如下: 首先,同时定位与地图构建方法研究。建立了本研究的系统模型W及 同时定位与建图的数学模型,分析其关键问题。然后,分别对郎F-SLAM和 FAST-SLAM算法进行原理分析和仿真分析。仿真实验表明;两种算法均可W 取得较好仿真效果,但FAST-SLAM算法的追踪误差较小、更适应实际环境。 其次,提出了蜘蛛群居算法的改进策略。为了提高

2020-11-16

基于ROS视觉定位的机器人智能抓取系统研究_王海玲

随着科技的飞速发展,机器人应用变得越加广泛。如今,在线示教和离线编程是工业生产线中控制机器人常见的控制方式,但是由于受到抓取目标物体的初始位姿和最终位姿被严格限定的问题,只能依靠机械完成机器人点到点的操纵,全程所用时间长、操作效率低以及定位准确度也低,因此,机器人在智能化程度上有一定程度的欠缺。在此问题的基础上,本课题提出一套基于ROS(机器人操作系统)视觉定位的机械臂智能抓取系统,使抓取目标的初始位姿和最终位姿被严格限定的问题得到解决。首先,采用张正友算法标定RGB-D相机,获取其内外参数;其次,采用棋盘格与AR标签两种方法,实现手眼标定;然后,通过多模态信息进行物体的识别与位姿估计;最终,

2020-11-06

SLAM第四讲作业及资料.zip

我们在现实生活中能看到大量的照片。在计算机中,一张照片由很多个像素组成,每 个像素记录了色彩或亮度的信息。三维世界中的一个物体反射或发出的光线,穿过相机光 心后,投影在相机的成像平面上。相机的感光器件接收到光线后,产生了测量值,就得到 了像素,形成了我们见到的照片。这个过程能否用数学原理来描述呢?本讲,我们首先讨 论相机模型,说明投影关系具体如何描述,相机的内参是什么。同时,简单介绍双目成像 与 RGB-D 相机的原理。然后,介绍二维照片像素的基本操作。最后,我们根据内外参数 的含义,演示一个点云拼接的实验

2020-06-16

第四讲:相机模型与非线性优化.pptx

我们在现实生活中能看到大量的照片。在计算机中,一张照片由很多个像素组成,每 个像素记录了色彩或亮度的信息。三维世界中的一个物体反射或发出的光线,穿过相机光 心后,投影在相机的成像平面上。相机的感光器件接收到光线后,产生了测量值,就得到 了像素,形成了我们见到的照片。这个过程能否用数学原理来描述呢?本讲,我们首先讨 论相机模型,说明投影关系具体如何描述,相机的内参是什么。同时,简单介绍双目成像 与 RGB-D 相机的原理。然后,介绍二维照片像素的基本操作。最后,我们根据内外参数 的含义,演示一个点云拼接的实验

2020-06-16

SLAM第三讲作业资料.zip

上一讲,我们介绍了三维世界中刚体运动的描述方式,包括旋转矩阵、旋转向量、欧 拉角、四元数等若干种方式。我们重点介绍了旋转的表示,但是在 SLAM 中,除了表示之 外,我们还要对它们进行估计和优化。因为在 SLAM 中位姿是未知的,而我们需要解决什 么样的相机位姿最符合当前观测数据这样的问题。一种典型的方式是把它构建成一个优化 问题,求解最优的 R; t,使得误差最小化。 如前所言,旋转矩阵自身是带有约束的(正交且行列式为 1)。它们作为优化变量时, 会引入额外的约束,使优化变得困难。通过李群——李代数间的转换关系,我们希望把位 姿估计变成无约束的优化问题,简化求解方式。由于读者可能还没有李群李代数的基本知 识,我们将从最基本的开始讲起。

2020-06-10

第二讲:三维空间的刚体运动.pptx

一个刚体在三维空间中的运动是如何描述的。我们当然知道这由一次旋转加一次 平移组成。平移确实没有太大问题,但旋转的处理是件麻烦事。我们将介绍旋转矩阵、四 元数、欧拉角的意义,以及它们是如何运算和转换的。在实践部分,我们将介绍线性代数 库 Eigen。它提供了 C++ 中的矩阵运算,并且它的 Geometry 模块还提供了四元数等刚 体运动的描述。 Eigen 的优化非常完善,但是它的使用方法有一些特殊的地方,我们会在 程序中介绍

2020-06-09

Transformer 论文+李沐视频+李宏毅视频 代码逐行跟踪

Transformer 论文+李沐视频+李宏毅视频 代码逐行跟踪

2024-09-10

生成式人工智能对课堂教学的变革影响 文 - 孙 众

人工智能的发展经历了从计算智能、感知智能到认知智能的三代进化历程。当机器已具备认知智能时,若 课堂教学仍以布卢姆认知目标分类法为理论指导,以培养学生认知能力为主要目标,必然面临重大危机。 要实现生成式人工智能深度融入学校教育教学,为课堂教学带来教育新质生产力,文章提出“四个更重要” 的教学主张:掌握专家思维比专家结论更重要;经历学习过程比呈现学习结果更重要;改变评价理念比改 变评价形式更重要;重视科学教育的同时,培养人文精神更重要。 关键词:生成式人工智能;认知智能;认知目标分类;课堂教学

2024-08-28

我国 2013-2023 年课堂视频分析的研究现状 * -基于 CiteSpace 的可视化林芷洁,杨玉宝

我国2013-2023年课...CiteSpace的可视化_林芷洁 【摘  要】课堂视频分析已成为教师、学生、教育管理者数字素养提升和实现教育高质量发展的重要工具。为探 究国内课堂教学视频分析研究的现状,文章以中国知网 2013-2023 年收录的 276 篇核心文献为计量分析对象,通过 CiteSpace 可视化分析,发现“视频分析”“课堂互动”“话语分析”和“人工智能”等成为课堂视频分析的研究热点, 且在分析技术和分析工具及应用效果等方面取得了显著进展,特别是人工智能技术有望成为推动该领域发展的新技术。 未来,需要扩大课堂视频分析的研究范围,挖掘和设计以深度学习为导向更能反映学科特点的视频分析编码系统,聚 焦师生的数字素养提升,助力新质生产力的发展。 【关键词】课堂视频分析;可视化分析;课堂互动;CiteSpace

2024-08-28

表情分类模型-基于人脸 emotion.pth

['angry', 'disgust', 'fear', 'happy', 'neutral', 'sad', 'surprise']

2024-08-20

生成式 AI 商业落地白皮书 给 CXO 的 AI 转型战术指南

生成式 AI 商业落地白皮书 给 CXO 的 AI 转型战术指南 01 场景案例大全 Gen-AI 240 应用全场景地图 消费零售 金融 汽车 医药大健康 智能终端 教育和科研 制造 企业服务 案例 01 飞鹤“3+3+2”战略蓝图 AI 能力中台建设 案例 05 汽车销售顾问的强大助手“SalesCopilot” 案例 02 海底捞 x 豆包大模型智慧洞察用户需求 案例 03 海尔消金携手火山引擎,共建消费金融大模型 案例 04 捷途汽车 x 豆包大模型打造智能客服“AI 小捷” 案例 06 北京协和医院基于豆包大模型和 HiAgent 研发智能运 维助手和 HIS 指南针 案例 08 OPPO × 火山引擎通过大模型强化手机终端识别、理解 和响应用户需求的能力 案例 10 面向生物医学领域打造一站式、智能化 AI 操作系统 Bio-OS 案例 09 华硕与火山引擎合作将大模型集成至“豆叮 AI 助手” 案例 11 火山引擎助力南开大学打造“AI + 教育”新生态 案例 12 大模型改善企业信息搜索体验 案例 13 豆包大模型助力晓多科技“AI 训练场 与 全渠道智能知 识库”智

2024-07-28

读论文Rethinking the Role of Demonstrations What Makes In-Context

【读论文】Rethinking the Role of Demonstrations What Makes In-Context Learning Work

2024-03-09

读论文Rethinking the Role of Demonstrations What Makes In-Context

【读论文】Rethinking the Role of Demonstrations What Makes In-Context Learning Work

2024-03-09

YOLOv8 代码包 修改版

YOLOv8 代码包

2023-09-21

ckpt.t7 DHN.pth osnet-x0-25.pth yolov7

https://github.com/Whiffe/Yolov7-tracker

2023-08-24

ckpt.t7 DHN.pth osnet-x0-25.pth yolov7

https://github.com/Whiffe/Yolov7-tracker

2023-08-24

rfb-face-mask.pth

面部表情识别模型权重 https://github.com/Whiffe/PyTorch-Facial-Expression-Recognition

2023-08-09

latest-model-099-94.7200.pth

面部表情识别模型权重 https://github.com/Whiffe/PyTorch-Facial-Expression-Recognition

2023-08-09

best.pth.tar

https://github.com/choyingw/SynergyNet best.pth.tar

2023-08-05

aflw2000-data.zip

https://github.com/choyingw/SynergyNet aflw2000_data.zip

2023-08-05

3dmm-data.zip

https://github.com/choyingw/SynergyNet 3dmm_data.zip

2023-08-05

EGE C/C++ 贪吃蛇

EGE C/C++ 贪吃蛇

2023-07-05

适用于Yolo训练和测试的coco数据集标签文件 train2017.txt和val2017.txt

适用于Yolo训练和测试的coco数据集标签文件 train2017.txt和val2017.txt和train2017.zip和val2017.zip yolov7 yolov5 yolov8

2023-05-06

yolov7 hand detection

yolov7 hand detection

2022-12-12

Youtube-Hands yolov7 detection

Youtube-Hands yolov7 detection

2022-12-12

face-dataset img 人脸识别 样例

face_dataset img 人脸识别 样例

2022-11-30

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除