- 博客(568)
- 资源 (27)
- 收藏
- 关注

原创 大模型数据污染 & 大模型动态评估
论文翻译:arxiv-2024 Estimating Contamination via Perplexity: Quantifying Memorisation in Language Model 高论文翻译:ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS 高论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Sur
2024-09-14 14:34:50
1166

原创 大模型安全相关研究
翻译:arXiv-2023 PromptRobust: Towards Evaluating the Robustness of Large Language Models on
2024-09-11 10:19:33
555

原创 公开 学生课堂行为数据集 SCB-Dataset: A Dataset for Detecting Student and Teacher Classroom Behavior
公开 学生课堂行为数据集 SCB-Dataset Student Classroom Behavior dataset
2023-04-08 22:12:12
10797
7
原创 论文阅读:2024 arxiv AttnGCG: Enhancing Jailbreaking Attacks on LLMs with Attention Manipulation
在图中,输入被分为系统提示(System Prompt)、用户提示(包含目标提示和对抗后缀)两部分,输出部分展示了模型针对不同输入的回应结果。通过对比,清晰地展示出AttnGCG相较于传统GCG方法,在引导模型生成恶意内容、绕过安全协议方面具有更高的成功率,凸显出操纵模型注意力分数对增强越狱攻击效果的重要作用。这篇论文主要研究了基于Transformer的大语言模型(LLMs)在越狱攻击方面的漏洞,提出了一种叫AttnGCG的方法来增强攻击效果。
2025-04-30 15:43:24
634
2
原创 论文阅读:2024 EMNLP User Inference Attacks on Large Language Models
这个威胁模型的关键在于,攻击者仅通过少量来自用户的样本和对模型的黑盒访问(只能查询模型的似然值,不知道模型内部结构和参数),就能尝试推断用户数据是否用于模型微调,揭示了大语言模型在使用用户数据微调时存在的隐私风险。这篇论文主要研究了大语言模型(LLMs)在使用用户数据进行微调时的隐私问题,提出了用户推理攻击概念,并探讨了相应的缓解策略。
2025-04-30 15:09:03
619
1
原创 论文阅读:2024 ICML In-Context Unlearning: Language Models as Few-Shot Unlearners
这篇论文主要介绍了一种针对大语言模型(LLMs)的新型遗忘学习方法——上下文内遗忘(In-Context Unlearning,ICUL),旨在解决从模型中删除特定训练数据的问题。Figure 1:上下文内遗忘与标准遗忘的差异。Figure 2:上下文内遗忘的示例。
2025-04-30 14:35:44
728
1
原创 论文阅读:2024 ICLR Teach LLMs to phish: Stealing private information from language models
这篇论文是在ICLR 2024会议上发表的,研究人员提出了一种针对大语言模型(LLMs)的“神经网络钓鱼攻击”,揭示了大语言模型在处理敏感用户数据时存在的隐私风险。通过这三个阶段,攻击者就能利用“神经网络钓鱼攻击”,在只掌握少量模糊信息的情况下,从大语言模型中窃取敏感信息,且攻击成功率可达10%-80%。Figure 1展示了“神经网络钓鱼攻击”(neural phishing attack)的三个阶段,目的是从大语言模型中窃取敏感信息。
2025-04-30 14:13:51
671
1
原创 论文阅读:2024 ACM MM Exploring the Robustness of Decision-Level Through Adversarial Attacks on LLM-Based
这篇论文主要研究基于大语言模型(LLM)的具身模型在决策层面的安全性和鲁棒性。随着人工智能发展,具身智能机器人与LLM融合提升了系统智能水平,但也带来对抗攻击风险,攻击者能操纵LLM产生有害输出,因此评估具身智能机器人的鲁棒性至关重要。Figure 2:EIRAD数据集的数据类型分布。Figure 1:具身智能攻击示例。
2025-04-30 13:48:09
478
1
原创 论文阅读:2024 ACM SIGSAC Membership inference attacks against in-context learning
在这个示例中,语言模型要完成的任务是根据问题的答案类型进行分类,比如答案类型可能是数字(Number)、地点(Location)、人物(Person)、描述(Description)、实体(Entity)或缩写(Abbreviation)。:帮助理解ICL的工作方式,它通过在输入中添加提示(包含指令和演示示例),让语言模型在不更新自身参数的情况下,通过类比示例来完成特定任务。这篇论文主要研究了大语言模型中上下文学习(ICL)的隐私安全问题,提出针对ICL的成员推理攻击方法,并探索了相应的防御策略。
2025-04-30 12:31:40
778
1
原创 论文阅读:2024 NeurIPS Efficient Adversarial Training in LLMs with Continuous Attacks
这篇论文是关于大语言模型对抗训练的研究。随着大语言模型在各种领域的广泛应用,其安全性和鲁棒性备受关注,而对抗训练是提升模型抵御对抗攻击能力的有效方法。
2025-04-30 10:28:31
783
1
原创 论文阅读:2024 arxiv Analyzing the Inherent Response Tendency of LLMs: Real-World Instructions-Driven Jai
这篇论文主要介绍了一种针对大语言模型(LLMs)的越狱攻击新方法RADIAL,探讨了LLMs在安全方面存在的问题。Figure 2:RADIAL方法总体框架。Figure 1:越狱方法示意图。
2025-04-30 10:10:10
724
1
原创 论文阅读 2024 arxiv Comprehensive Assessment of Jailbreak Attacks Against LLMs
这篇论文是关于大语言模型越狱攻击的全面评估,研究发现现有大语言模型都存在越狱风险,当前防御手段也无法完全抵御这些攻击。Figure 1:不同越狱攻击方法示例。Figure 2:测量过程概述。
2025-04-30 09:42:40
635
1
原创 论文阅读:2024 arxiv Jailbreaking Black Box Large Language Models in Twenty Queries
这篇论文是来自宾夕法尼亚大学的研究人员撰写的,主要探讨大语言模型(LLMs)的安全漏洞问题,提出了一种叫PAIR的算法来进行攻击测试,相关成果有助于提升大语言模型的安全性。,主要展示了大语言模型越狱攻击的两种类型,以及PAIR算法的运行机制。通过直观的图示,有助于理解不同越狱攻击的特点和PAIR算法的工作流程。
2025-04-30 08:42:26
1060
1
原创 论文阅读:2023 arxiv Jailbreak and Guard Aligned Language Models with Only Few In-Context Demonstrations
这篇论文主要研究大语言模型(LLMs)的安全问题,提出了利用上下文学习来调整模型安全性的方法,包括攻击和防御手段,并从理论和实验方面进行了验证。
2025-04-30 00:51:19
521
1
原创 论文阅读:2024 ACM SIGSAC Optimization-based Prompt Injection Attack to LLM-as-a-Judge
这篇论文名为《Optimization-based Prompt Injection Attack to LLM-as-a-Judge》,主要探讨了针对大语言模型作为评判者(LLM-as-a-Judge)的优化提示注入攻击,核心观点是LLM-as-a-Judge存在安全隐患,现有防御手段不足,需要新的防御策略。Figure 1展示了LLM-as-a-Judge在无攻击和受到JudgeDeceiver攻击时的不同表现,用一个简单的问答场景来呈现,让人能直观地理解攻击的原理和效果。
2025-04-29 21:14:22
797
1
原创 论文阅读:2025 arxiv LLMs can be Dangerous Reasoners: Analyzing-based Jailbreak Attack on Large Language
而ABJ攻击则不同,它利用了大语言模型在复杂推理能力上存在的安全漏洞。ABJ不是直接发送有害信息,而是通过巧妙的设计,让模型在推理过程中自主地生成有害内容,从而成功绕过模型的安全机制。这表明ABJ攻击比直接攻击更具隐蔽性和有效性,也凸显了大语言模型在看似强大的推理能力背后,存在着容易被利用的安全隐患。Figure 1展示了直接攻击和基于分析的越狱攻击(ABJ)的对比,以GPT-4o-2024-11-20模型为例。因为模型被训练来识别和拒绝有害请求,直接发送有害查询会被模型轻易检测到并拒绝。
2025-04-29 21:04:20
544
1
原创 论文阅读:2024 arxiv MRJ-Agent: An Effective Jailbreak Agent for Multi-Round Dialogue
这两个图来自论文“MRJ-Agent: An Effective Jailbreak Agent for Multi-Round Dialogue”,分别展示了攻击流程和方法的整体框架,有助于理解MRJ-Agent这种针对大语言模型多轮对话越狱攻击的原理和实施步骤。
2025-04-29 20:51:20
955
1
原创 Qwen3快速部署 Qwen3-0.6B、Qwen3-8B、Qwen3-14B,Think Deeper
今天,通义千问Qwen团队正式开源推出 Qwen3,这是 Qwen 系列大型语言模型的最新成员。最新的Qwen3系列模型具备双模推理能力(深入思考/快速响应)、支持119种语言及方言,并强化了Agent功能与代码执行能力,全面满足复杂问题处理与全球化应用需求。安装transformers。
2025-04-29 18:06:25
400
原创 论文阅读:2024 arixv Enhancing Jailbreak Attack Against Large Language Models through Silent Tokens
通过Figure 1的对比,能直观地看到越狱攻击对模型的影响,即正常情况下模型能抵制有害请求,但在越狱攻击下会失去这种抵制能力,生成有害内容,突出了越狱攻击对大语言模型安全性的威胁。这篇论文是关于大语言模型安全研究的,主要探讨了利用eos令牌增强针对大语言模型越狱攻击的方法,旨在揭示大语言模型在安全性方面的脆弱性,并引起人们对相关风险的重视。Figure 1展示了针对Llama-2模型的正常提示和越狱提示的不同反应,以此对比正常情况和遭受越狱攻击时模型的表现差异。eos 令牌是什么?
2025-04-29 15:59:00
666
1
原创 论文阅读:2024 arxiv FlipAttack: Jailbreak LLMs via Flipping
Figure 2展示了FlipAttack这种针对大语言模型(LLMs)越狱攻击方法的整体流程,主要包含攻击伪装模块和翻转引导模块两部分,目的是绕过LLMs的安全防护并让其执行有害指令。这篇论文主要介绍了一种针对大语言模型(LLMs)的越狱攻击方法FlipAttack,研究人员希望通过这种研究,让人们更了解大语言模型的安全问题,从而推动更安全的人工智能技术发展。
2025-04-29 15:33:22
901
1
原创 论文阅读:2024 arxiv RL-JACK: Reinforcement Learning-powered Black-box Jailbreaking Attack against LLMs
这篇论文名为《RL-JACK: Reinforcement Learning-powered Black-box Jailbreaking Attack against LLMs》,核心是提出一种基于深度强化学习(DRL)的大语言模型(LLM)越狱攻击方法RL-JACK。Figure 2展示了RL-JACK攻击方法的系统工作流程,它主要由RL智能体、辅助大语言模型(helper LLM)和目标大语言模型(target LLM)协同完成越狱提示生成。
2025-04-29 14:50:52
613
1
原创 论文阅读: ICLR 2024 Workshop GUARD: Role-playing to Generate Natural-language Jailbreakings to Test Guid
这篇论文提出了GUARD(Guideline Upholding through Adaptive Role - play Diagnostics)系统,通过生成自然语言越狱提示来测试大语言模型(LLMs)是否遵守准则,还能将测试拓展到视觉语言模型(VLMs),提升对模型安全性和可靠性的评估。
2025-04-29 13:11:10
829
1
原创 论文阅读: 2024 ICLR AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models
AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models这篇论文名为“AUTODAN: GENERATING STEALTHY JAILBREAK PROMPTS ON ALIGNED LARGE LANGUAGE MODELS”,主要研究大语言模型(LLMs)的越狱攻击问题,提出了一种名为AutoDAN的新方法,能自动生成隐蔽的越狱提示,具体内容如下:
2025-04-29 10:49:07
590
1
原创 论文阅读:2025 ICLR Towards Federated RLHF with Aggregated Client Preference for LLMs
这篇论文主要讲了如何在保护用户隐私的前提下,让大语言模型(LLM)更好地理解人类偏好,提升生成内容的质量。核心是把联邦学习(FL)和人类反馈强化学习(RLHF)结合起来,提出了FedBis和FedBiscuit两种方法,解决传统RLHF在数据隐私和模型训练中的难题。简单来说,论文就是教大模型“偷偷”学习人类喜好——不用收集你的数据,而是让你在本地“打分”,然后通过“组队投票”让模型学会讨好大多数人,还能防止模型“作弊”,一举两得!
2025-04-26 16:22:09
292
1
原创 论文阅读:2025 arxiv Aligning to What? Limits to RLHF Based Alignment
这篇论文泼了盆冷水:RLHF虽然能让模型在表面上更“合规”,但对深层的隐性偏见效果微弱,甚至可能因数据和方法限制导致新问题。要让AI真正“公平”,可能需要从数据源头、训练方法到评估体系的全面革新。
2025-04-26 16:12:27
592
1
原创 论文阅读:2024 arxiv Proxy-RLHF: Decoupling Generation and Alignment in Large Language Model with Proxy
基于人类反馈的强化学习(RLHF)是确保大语言模型(LLMs)符合人类价值观的主流方法。但现有的RLHF方法计算成本很高,主要原因之一是RLHF让大语言模型同时承担生成内容和符合人类价值观这两项任务。在本文中,作者提出了Proxy - RLHF方法,它将大语言模型的内容生成和价值对齐过程分离开来,以低得多的计算成本实现与人类价值观的对齐。
2025-04-26 12:33:57
667
1
原创 论文阅读:2025 arxiv Reward Shaping to Mitigate Reward Hacking in RLHF
这篇论文主要探讨如何解决大语言模型在通过人类反馈进行强化学习(RLHF)时出现的“奖励破解”问题。简单来说,奖励破解就是模型会钻奖励函数的空子,比如生成重复或公式化的内容来刷分,而不是真正完成人类期望的任务。简单来说,这篇论文教我们如何让模型“老实学习”,不钻奖励机制的空子,从而更好地理解和满足人类需求。
2025-04-26 12:05:04
514
1
原创 论文阅读:2024 arxiv HybridFlow: A Flexible and Efficient RLHF Framework
HybridFlow通过“分层控制+高效切换+智能分配”,让大模型的人类反馈训练更快、更灵活,为开发更安全、更智能的AI奠定基础。
2025-04-26 11:16:11
943
1
原创 论文阅读:2025 AAAI Sequence to Sequence Reward Modeling: Improving RLHF by Language Feedback
这篇论文的创新点在于用“生成正确回答”代替“打分”,让大模型通过自然语言理解人类的需求,减少“偷懒”和“误解”。这种方法简单有效,不需要额外成本,为提升大模型的安全性和实用性提供了新思路。
2025-04-25 17:06:29
861
1
原创 论文阅读:2024 NeurIPS Group Robust Preference Optimization in Reward-free RLHF
这篇论文提出了一种让大语言模型“公平对待”不同群体的方法GRPO,通过动态调整群体权重和优化最差群体表现,解决了传统方法忽视群体差异的问题,让模型在多样化场景中更稳健、更公平。
2025-04-25 16:50:03
802
1
原创 论文阅读:2025 arxiv Equilibrate RLHF: Towards Balancing Helpfulness-Safety Trade-off in Large Language M
RLHF通过将人类纳入学习 loop,让智能系统更贴近人类需求,尤其在大模型和复杂任务中展现了巨大潜力。未来需解决反馈效率、多样性聚合和安全性等问题,推动其在更多领域的落地,实现“更懂人类”的人工智能。
2025-04-25 14:04:10
992
1
原创 论文阅读:2024 ACL ArtPrompt: ASCII Art-based Jailbreak Attacks against Aligned LLMs
这篇论文揭示了LLM在非语义输入下的脆弱性,提出的ArtPrompt攻击证明了现有安全措施的不足。
2025-04-25 10:09:08
954
1
原创 论文阅读:2024 NeurIPS Improved few-shot jailbreaking can circumvent aligned language models and their de
I-FSJ的核心是利用模型的“格式规则”和“少样本学习能力”,通过插入系统令牌让恶意示例看起来像正常对话,再通过随机搜索优化示例组合,从而高效绕过安全机制。这一方法为大模型的安全评估提供了新的测试基准,也警示需加强对“语义连贯型攻击”的防御。
2025-04-25 09:28:15
553
1
原创 论文阅读: 2024 NeurIPS Vaccine: Perturbation-aware Alignment for Large Language Models against Harmful F
就像给模型打“安全疫苗”——先人为注入“无害病毒”(扰动),让模型免疫系统(嵌入层)学会识别威胁,这样即使后续遇到真实“病毒”(恶意数据),也能保持正常功能,不被感染(生成有害内容)。在模型对齐阶段(即首次安全训练时),主动向嵌入层添加“精心设计的扰动”,让模型学会抵抗后续微调中的恶意扰动,类似“接种疫苗”增强免疫力。现在很多大语言模型提供“微调即服务”(Fine-tuning-as-a-Service),允许用户上传自己的数据来定制模型。
2025-04-24 19:39:12
733
1
原创 论文阅读:2024 ICML Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models
这篇论文提出了一种“模型自我进化”的方法SPIN,让语言模型通过“自己和自己比赛”不断优化,无需额外人工数据也能显著提升能力,为低成本提升模型性能提供了新方向。
2025-04-24 19:28:40
801
1
原创 论文阅读:2024 ICLR RAIN: Your Language Models Can Align Themselves without Finetuning
RAIN证明了大模型可以通过自我评估和回退机制实现对齐,无需依赖人工数据或参数更新。这为提升模型安全性提供了一条低成本、易实施的新路径,尤其适合开源模型和资源有限的场景。未来可能成为大模型部署中的标配安全工具。
2025-04-24 19:05:10
478
1
原创 论文阅读:2024 ICLR RLCD: Reinforcement Learning from Contrastive Distillation for LM Alignment
后来的RLAIF(AI反馈强化学习)用语言模型模拟人类偏好,但同一提示生成的两个输出往往非常相似,导致标签噪声大(比如两个回答都差不多好或差,难分优劣)。这篇论文主要介绍了一种名为RLCD(对比蒸馏强化学习)的新方法,目的是让语言模型(如LLaMA)更好地遵循人类设定的规则(比如无害性、 helpfulness等),同时避免使用人类反馈标注数据。这项研究为语言模型对齐提供了一种高效、低成本的新方法,尤其适合需要遵循特定规则(如伦理准则)的场景,同时为减少对人工标注的依赖开辟了新路径。
2025-04-24 09:08:31
924
1
原创 论文阅读:2024 arxiv Some things are more CRINGE than others: Iterative Preference Optimization with the
这篇论文展示了一种更简单、高效的方法来训练语言模型,使其更懂人类喜好。未来,类似的技术可能让ChatGPT等工具生成更少错误、更符合需求的内容,同时降低训练成本。对于开发者来说,成对尴尬损失可能成为优化模型的新首选工具。
2025-04-24 08:37:01
820
1
原创 论文阅读:2023 arxiv A Survey of Reinforcement Learning from Human Feedback
传统的强化学习(RL)需要人为设计“奖励函数”(比如游戏得分、机器人动作的正确率),告诉AI什么是“好”的行为。但设计奖励函数很困难,尤其是复杂任务中(如让AI理解人类的道德偏好),容易出现“奖励漏洞”(AI钻空子刷分,比如游戏中不完成任务只刷奖励)。
2025-04-20 17:12:48
1089
1
rfb-face-mask.pth
2023-08-09
latest-model-099-94.7200.pth
2023-08-09
适用于Yolo训练和测试的coco数据集标签文件 train2017.txt和val2017.txt
2023-05-06
22-8-6 mmaction2 slowfast训练配置 训练日志分析
2022-08-06
22-8-4 mmaction2 slowfast训练日志
2022-08-05
archery.mp4 行为识别 pytorchvideo demo演示视频(行为识别)
2022-07-30
archery.mp4 行为识别 pytorchvideo demo演示视频(行为识别)
2022-07-30
课堂学习行为测量系统的设计与实现_张鸿宇.caj
2021-04-15
基于深度学习的行为检测方法综述_高陈强.caj
2020-12-25
chatgpt-detector-roberta
2025-03-19
大型语言模型的各种安全性议题
2025-02-26
语文课堂数据分析:《西门豹治邺》教学洞察
2024-10-09
宁波荣安实验中学AI驱动的教学评价系统需求验证报告
2024-10-09
从同课异构角度看乡村初中英语课堂中学习活动观的实践-李梦晓
2024-10-09
同课异构,呈现精彩课堂-以“认识平行线”教学为例胡梦文 同课异构应用于《认识平行线》教学实践探索
2024-10-09
mobilenet-v2-b0353104 resnet18-5c106cde resnet34-333f7ec4 预训练模型
2024-09-24
生成式人工智能对课堂教学的变革影响 文 - 孙 众
2024-08-28
我国 2013-2023 年课堂视频分析的研究现状 * -基于 CiteSpace 的可视化林芷洁,杨玉宝
2024-08-28
表情分类模型-基于人脸 emotion.pth
2024-08-20
生成式 AI 商业落地白皮书 给 CXO 的 AI 转型战术指南
2024-07-28
读论文Rethinking the Role of Demonstrations What Makes In-Context
2024-03-09
读论文Rethinking the Role of Demonstrations What Makes In-Context
2024-03-09
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人