- 博客(601)
- 资源 (27)
- 收藏
- 关注

原创 大模型数据污染 & 大模型动态评估
论文翻译:arxiv-2024 Estimating Contamination via Perplexity: Quantifying Memorisation in Language Model 高论文翻译:ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS 高论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Sur
2024-09-14 14:34:50
1225

原创 大模型安全相关研究
本文整理了关于大模型安全领域的综合性资源,包括7篇综述论文、9个安全数据集以及5篇强化学习相关的安全研究论文。主要涉及大模型的对抗攻击、隐私保护、安全评估等方向,涵盖TruthfulQA、ToxiGen等知名数据集和TrustLLM、HarmBench等关键研究。资源包括知乎博主分享、arXiv预印本和顶会论文,并附有详细的中文讲解链接,为研究者提供了系统性的安全研究参考。
2024-09-11 10:19:33
859

原创 公开 学生课堂行为数据集 SCB-Dataset: A Dataset for Detecting Student and Teacher Classroom Behavior
公开 学生课堂行为数据集 SCB-Dataset Student Classroom Behavior dataset
2023-04-08 22:12:12
11911
7
原创 论文阅读:arxiv 2025 Thinking Fast and Right: Balancing Accuracy and Reasoning Length with Adaptive Rewar
这篇论文聚焦于解决大语言模型(LLMs)在推理时存在的过度冗长问题,提出了一种名为自适应直接长度惩罚(A-DLP)的奖励塑造方法,旨在让模型既能快速思考又能保证推理的正确性。
2025-06-13 15:17:36
254
原创 论文阅读:2025 arxiv Rule-Guided Feedback: Enhancing Reasoning by Enforcing Rule Adherence in Large Langu
总目录 大模型安全相关研究:https://blog.csdn.net/WhiffeYF/article/details/142132328https://arxiv.org/pdf/2503.11336https://www.doubao.com/chat/8798278966113794Rule-Guided Feedback: Enhancing Reasoning by Enforcing Rule Adherence in Large Language Models这篇论文提出了一种名为规则引导
2025-06-13 14:47:22
214
原创 论文阅读:arxiv 2025 How Likely Do LLMs with CoT Mimic Human Reasoning?
这篇论文揭穿了LLM的“小聪明”:它们用CoT时可能不是在认真推理,而是先猜答案再编过程。要让模型像人一样思考,不能只靠扩大模型或调参,得从因果关系入手,让推理步骤真正“说了算”。
2025-06-13 10:37:20
400
1
原创 论文阅读:arxiv 2025 Self-Training Elicits Concise Reasoning in Large Language Models
大语言模型并非“必须啰嗦”,而是缺乏激发简洁推理的训练。通过自训练结合最佳采样和少样本提示,模型能在不牺牲准确性的前提下,显著提升推理效率,为实际部署中的成本优化提供了可行方案。
2025-06-13 10:30:22
562
1
原创 论文阅读:arxiv 20205 Innate Reasoning is Not Enough: In-Context Learning Enhances Reasoning Large Langua
总目录 大模型安全相关研究:https://blog.csdn.net/WhiffeYF/article/details/142132328https://arxiv.org/pdf/2503.19602https://www.doubao.com/chat/8751693021735170Innate Reasoning is Not Enough: In-Context Learning Enhances Reasoning Large Language Models with Less Overthi
2025-06-13 09:46:57
535
1
原创 论文阅读:arxiv 2025 Chain of Draft: Thinking Faster by Writing Less
CoD证明了大模型推理不必“啰嗦”,用简洁的“要点式”思考既能保证准确性,又能显著提升效率、降低成本,为大模型的实际应用(尤其是对延迟和成本敏感的场景)提供了新方向。
2025-06-13 09:38:49
287
1
原创 论文阅读:arxiv 2025 Measuring the Faithfulness of Thinking Drafts in Large Reasoning Models
这篇论文揭示了大型推理模型在推理过程中存在的“言行不一”问题,并提供了一套评估方法。未来的模型不仅需要强大的推理能力,还需要在思考草稿中保持“忠实”,让人类能真正理解和信任其决策过程。
2025-06-12 10:36:16
674
1
原创 论文阅读:arxiv 2025 ThinkLess: A Training-Free Inference-Efficient Method for Reducing Reasoning Redunda
核心价值:ThinkLess提供了一种“即插即用”的推理优化方案,无需修改模型或额外训练,就能在保持准确性的同时大幅提升推理效率,适用于对响应速度和资源消耗敏感的实际应用。待改进方向:目前终止位置固定,缺乏针对问题难度的动态调整策略;对指令质量依赖较高,复杂任务可能需要手动优化指令;在更大规模模型和更多任务类型上的扩展性仍需验证。
2025-06-12 00:26:10
431
1
原创 论文阅读:2025 arxiv Effectively Controlling Reasoning Models through Thinking Intervention
这篇论文提出的方法就像给大模型的思考过程装了一个“导航”,在它跑偏时及时纠正,既不改变模型本身,又能让它更精准、安全地完成任务,为开发更可靠的AI系统提供了新思路。
2025-06-12 00:20:11
685
1
原创 论文阅读:2023 arxiv A Prompt Pattern Catalog to Enhance Prompt Engineering with ChatGPT
提示工程:给大语言模型(如ChatGPT)下达指令的技巧。这些指令能定制模型输出、规范交互规则,甚至“编程”让模型完成特定任务,比如生成符合特定风格的代码或自动部署脚本。提示模式:类比“软件设计模式”,是解决大语言模型交互中常见问题的“可复用方案”。例如,当你希望模型按特定格式输出或主动提问获取信息时,可直接套用对应的模式。这篇文章的核心价值在于,将碎片化的提示技巧系统化,形成可复用的“模式语言”。
2025-06-11 20:53:27
504
1
原创 论文阅读:2025 中科院一区 AI Agents Under Threat: A Survey of Key Security Challenges and Future Pathways
AI代理越聪明,越需要“安全铠甲”。这篇文章把它们面临的风险讲得很透,也指了路:只有解决好输入、内部逻辑、环境和外部交互的安全问题,AI才能真正靠谱地帮我们干活,而不是被坏人利用。
2025-06-11 19:25:00
689
1
原创 ASR(语音识别)语音/字幕标注 通过via(via_subtitle_annotator)
摘要:本文介绍了VIA工具在语音/字幕标注中的使用方法,包括视频加载、时间片段添加(快捷键A)、字幕内容填写以及JSON文件保存等操作步骤。同时详细列出了VIA的键盘快捷键,涵盖常规操作(如播放控制、时间移动)、时间片段编辑(如删除、合并)和空间区域处理(如选择、删除区域)等功能,帮助用户高效完成多媒体标注任务。关键操作包括空格键播放、Shift调整片段边界、Ctrl精确移动时间片段等。
2025-06-09 12:55:19
1063
原创 论文阅读:2025 arxiv When Thinking Fails: The Pitfalls of Reasoning for Instruction-Following in LLMs
推理增强的大型语言模型(RLLMs),无论是经过显式推理训练还是通过思维链(CoT)提示,都在许多复杂推理任务上取得了最先进的性能。然而,我们发现了一个令人惊讶且此前被忽视的现象:显式的CoT推理会显著降低遵循指令的准确性。我们在两个基准测试上评估了15个模型:IFEval(具有简单、可验证规则的约束)和ComplexBench(具有复杂、组合约束),发现应用CoT提示时性能始终下降。
2025-06-08 20:37:09
835
1
原创 Paraformer分角色语音识别-中文-通用 FunASR demo测试与训练
FunASR分角色语音识别模型测试摘要 本文介绍了如何使用FunASR框架中的Paraformer中文通用语音识别模型进行分角色语音识别测试。首先通过ModelScope下载预训练模型,然后使用Python脚本加载模型并测试音频识别效果。测试音频是一段包含对话的教学场景录音,识别结果准确展现了语音内容的时间分段和文本转写效果。模型支持语音活动检测(VAD)、标点恢复(PUNC)和说话人识别(SPK)等功能的灵活配置。文章提供了详细的安装步骤和代码示例,包括ffmpeg安装、模型下载方法以及识别测试脚本。测试
2025-06-04 22:38:49
849
1
原创 论文阅读:2024 ACL fingding Virtual Context: Enhancing Jailbreak Attacks with Special Token Injection
这篇论文揭示了大模型中一个被忽视的安全漏洞:特殊令牌可能被用来伪造模型的“自我生成内容”,诱导其输出有害信息。Virtual Context方法简单高效,无需复杂技术即可实施,对当前大模型的安全性构成了新的威胁,也为防御方提供了新的研究方向。
2025-05-31 11:50:13
1090
1
原创 论文阅读:2025 arxiv Scaling Reasoning, Losing Control: Evaluating Instruction Following in Large Reasoni
核心结论:当前大型推理模型在“智能”和“可控”之间存在根本矛盾,提升推理能力往往以牺牲指令遵循为代价。未来方向:需要设计新的训练方法,让模型既能深度推理,又能“牢记指令”,比如在训练中加入更多约束感知机制。一句话总结:这篇研究告诉我们,让聪明的数学模型“听人话”并不容易,越会解题的模型可能越“任性”,如何平衡能力与可控性,是未来AI发展的重要挑战。指令遵循能力对于实现大型语言模型(LLMs)与用户意图的对齐至关重要。
2025-05-28 17:01:29
1092
1
原创 大模型现象级发现-2025年上半年 资料收集
让QwQ思考模型-不思考的小技巧2025-05-27 最新实验:不听人类指令 OpenAI模型拒绝自我关闭https://x.com/PalisadeAI/status/1926084635903025621公众号qwen3的致命幻觉!大模型微调会思考的大模型更不听话,我的豆包失控了…所有大模型都在讨好人类https://arxiv.org/html/2505.13995v1OpenAI最新技术报告:GPT-4o变谄媚的原因万万没想到不要思考过程,推理模型能力能够更强丨UC伯克利等最新研究Reas
2025-05-27 16:48:40
249
原创 AutoDAN-Turbo 复现 AutoDAN-Turbo: A Lifelong Agent for Strategy Self-Exploration to Jailbreak LLMs
本文介绍了在AutoDL平台上部署和优化AutoDAN-Turbo大模型安全研究工具的过程。主要内容包括:1)通过ModelScope SDK下载Qwen、DeepSeek等系列大模型;2)针对国内网络环境对原项目进行改造,包括移除OpenAI/HuggingFace依赖,替换为国内兼容方案(如DashScope嵌入模型);3)创建修改版仓库AutoDAN-Turbo-C,详细记录了核心文件(pipeline.py、模型加载模块等)的代码改动;4)提供了适配后的安装流程和依赖配置说明。该项目解决了原工具在国
2025-05-26 15:19:15
906
原创 论文阅读:2024 arxiv Prompt Injection attack against LLM-integrated Applications
论文揭示了LLM集成应用的潜在安全漏洞,提出了高效的HOUYI攻击方法,并通过大规模实验验证了其威胁。这一研究不仅警示开发者重视提示注入风险,也为后续防御技术的发展奠定了基础。
2025-05-26 09:28:47
819
1
原创 论文阅读: 2023 NeurIPS Jailbroken: How does llm safety training fail?
想象你有一个智能助手,原本它会拒绝帮你做坏事(比如教你偷东西),但黑客通过某种技巧让它“听话”了——这就是。
2025-05-26 09:12:59
1218
1
原创 论文阅读:2025 ACM Computing Surveys. Security and Privacy Challenges of Large Language Models: A Survey
大语言模型是一把“双刃剑”,既能推动科技进步,也带来安全与隐私风险。这篇论文呼吁研究者、开发者和政策制定者共同努力,通过技术创新(如更鲁棒的防御算法)和制度规范(如数据隐私法规),让大语言模型更安全、可信地服务于人类。最重要的表。
2025-05-26 00:20:31
686
1
原创 论文阅读:2023 arxiv Baseline defenses for adversarial attacks against aligned language models
论文通过实验验证了三类经典防御在LLMs中的有效性,揭示了文本离散性和计算成本对攻击的限制,并呼吁关注灰盒防御和高效优化技术的研究。这为大语言模型的安全部署提供了重要参考。
2025-05-26 00:09:34
624
1
原创 项目阅读:Instruction Defense
指令防御是一种通过在提示词(prompt)中明确加入警示内容,使模型警惕用户可能使用的各类“提示词攻击”(prompt hacking)手段的方法。其核心是在提示词中添加引导性指令,促使模型对用户后续输入的内容保持谨慎判断。
2025-05-25 23:49:25
472
原创 github项目:llm-guard
是一个开源项目,欢迎社区成员参与贡献,包括修复 bug、提出新功能建议、改进文档等。用户可以在 GitHub 上给项目加星支持。开发的一个全面的工具库,旨在增强大语言模型(LLMs)交互的安全性。,包括与 Amazon Bedrock、OpenAI API 等的集成。提供了多个示例脚本,展示如何在不同的场景中使用。,包括入门指南、API 文档、变更日志等。包含详细的文档,帮助用户了解如何使用。
2025-05-25 21:09:10
361
原创 论文阅读:arxiv 2024 SmoothLLM: Defending LLMs Against Jailbreaking Attacks
大语言模型(如GPT、Llama)虽然经过训练以符合人类伦理,但黑客可以通过精心设计的。
2025-05-25 20:52:06
969
1
原创 具有思考模式模型部署:Qwen3、DeepSeek-R1-Distill、Phi-4、QWQ系列
本文介绍了如何在Autodl平台上部署和运行多个开源大语言模型,包括Qwen3、DeepSeek-R1-Distill、Phi-4和QWQ。首先,通过Modelscope SDK下载模型,并提供了相应的Python脚本示例。接着,使用Transformers库加载模型和分词器,并设置了生成参数以生成文本。最后,通过一个简单的提示词“Give me a short introduction to large language models”展示了模型的输出结果。文章详细介绍了每个步骤的操作方法,适合开发者快速
2025-05-21 18:50:59
639
原创 论文阅读:ICLR 2025 AutoDAN-Turbo: A Lifelong Agent for Strategy Self-Exploration to Jailbreak LLMs
AutoDAN-Turbo就像一个“AI黑客训练师”,能自动学习如何绕过语言模型的安全防护。它的出现凸显了大模型安全的脆弱性,也为对抗性测试提供了新工具——但同时也提醒我们,AI安全需要持续进化,以应对不断升级的攻击手段。
2025-05-18 16:42:27
687
1
原创 论文 nanoGCG复现 Universal and Transferable Adversarial Attacks on Aligned Language Models
论文翻译:Universal and Transferable Adversarial Attacks on Aligned Language Models论文 GCG 复现 Universal and Transferable Adversarial Attacks on Aligned Language Models。
2025-05-17 15:50:24
948
原创 学生课堂抬头率检测计算 基于YOLOv7与视觉大模型
抬头率YOLOv7和视觉大模型对比YOLO:42.6%豆包:无法计数通义:6%YOLO:93.9%豆包:22.2%通义:87.5%YOLO:94.4%豆包: 67%通义:70%YOLO:98.6%豆包:30%通义:0%在这里插入图片描述YOLO:58.6%豆包:3.57%通义:3.33%YOLO只能判断明显低头的人数,所以抬头率在学生低头幅度不大的情况下,判断为抬头,所以抬头率偏高。豆包不准确率。通义较好,但是不稳定。
2025-05-10 20:38:40
861
原创 论文 GCG 复现 Universal and Transferable Adversarial Attacks on Aligned Language Models
论文翻译:Universal and Transferable Adversarial Attacks on Aligned Language Models。
2025-05-08 20:00:21
876
1
原创 论文 AttnGCG 复现 AttnGCG: Enhancing Jailbreaking Attacks on LLMs with Attention Manipulation
论文阅读:2024 arxiv AttnGCG: Enhancing Jailbreaking Attacks on LLMs with Attention Manipulation。
2025-05-07 11:23:15
346
原创 顶会论文 AutoDAN 复现 2024 ICLR AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large
备注:requirements.txt中删掉torch==2.0.1,因为已经安装好了。Llama-2-7b-chat-hf 模型下载。
2025-05-02 23:18:46
429
原创 论文阅读:2025 Expert Systems with Applications.SLBDetection-Net: Towards closed-set and open-set student
通过对K-12教育阶段学生在课堂上学习行为的有效分析,能够极大地改善教与学之间的互动,从而提高教育质量。然而,目前对学生课堂行为的传统分析主要集中在单一场景下的封闭集行为检测。对于复杂且开放的真实课堂环境而言,挑战在于在人员密集的小型复杂场景中获取有意义的行为表征,同时在封闭集和开放集环境中都能取得良好的性能表现。为应对这些挑战,本研究引入了一种在封闭集和开放集场景中检测学生学习行为的新方法,称为SLBDetection-Net。该方法专注于准确捕捉学习行为表征,特别强调多尺度聚焦关键信息(MFKI)。
2025-05-02 22:28:15
864
1
原创 论文阅读:2024 arxiv AttnGCG: Enhancing Jailbreaking Attacks on LLMs with Attention Manipulation
在图中,输入被分为系统提示(System Prompt)、用户提示(包含目标提示和对抗后缀)两部分,输出部分展示了模型针对不同输入的回应结果。通过对比,清晰地展示出AttnGCG相较于传统GCG方法,在引导模型生成恶意内容、绕过安全协议方面具有更高的成功率,凸显出操纵模型注意力分数对增强越狱攻击效果的重要作用。这篇论文主要研究了基于Transformer的大语言模型(LLMs)在越狱攻击方面的漏洞,提出了一种叫AttnGCG的方法来增强攻击效果。
2025-04-30 15:43:24
953
2
原创 论文阅读:2024 EMNLP User Inference Attacks on Large Language Models
这个威胁模型的关键在于,攻击者仅通过少量来自用户的样本和对模型的黑盒访问(只能查询模型的似然值,不知道模型内部结构和参数),就能尝试推断用户数据是否用于模型微调,揭示了大语言模型在使用用户数据微调时存在的隐私风险。这篇论文主要研究了大语言模型(LLMs)在使用用户数据进行微调时的隐私问题,提出了用户推理攻击概念,并探讨了相应的缓解策略。
2025-04-30 15:09:03
975
1
原创 论文阅读:2024 ICML In-Context Unlearning: Language Models as Few-Shot Unlearners
这篇论文主要介绍了一种针对大语言模型(LLMs)的新型遗忘学习方法——上下文内遗忘(In-Context Unlearning,ICUL),旨在解决从模型中删除特定训练数据的问题。Figure 1:上下文内遗忘与标准遗忘的差异。Figure 2:上下文内遗忘的示例。
2025-04-30 14:35:44
1040
1
原创 论文阅读:2024 ICLR Teach LLMs to phish: Stealing private information from language models
这篇论文是在ICLR 2024会议上发表的,研究人员提出了一种针对大语言模型(LLMs)的“神经网络钓鱼攻击”,揭示了大语言模型在处理敏感用户数据时存在的隐私风险。通过这三个阶段,攻击者就能利用“神经网络钓鱼攻击”,在只掌握少量模糊信息的情况下,从大语言模型中窃取敏感信息,且攻击成功率可达10%-80%。Figure 1展示了“神经网络钓鱼攻击”(neural phishing attack)的三个阶段,目的是从大语言模型中窃取敏感信息。
2025-04-30 14:13:51
891
1
latest-model-099-94.7200.pth
2023-08-09
rfb-face-mask.pth
2023-08-09
适用于Yolo训练和测试的coco数据集标签文件 train2017.txt和val2017.txt
2023-05-06
22-8-6 mmaction2 slowfast训练配置 训练日志分析
2022-08-06
22-8-4 mmaction2 slowfast训练日志
2022-08-05
archery.mp4 行为识别 pytorchvideo demo演示视频(行为识别)
2022-07-30
archery.mp4 行为识别 pytorchvideo demo演示视频(行为识别)
2022-07-30
课堂学习行为测量系统的设计与实现_张鸿宇.caj
2021-04-15
ASR(语音识别)语音/字幕标注 及转化为ASR Paraformer 可训练数据
2025-06-11
chatgpt-detector-roberta
2025-03-19
大型语言模型的各种安全性议题
2025-02-26
语文课堂数据分析:《西门豹治邺》教学洞察
2024-10-09
宁波荣安实验中学AI驱动的教学评价系统需求验证报告
2024-10-09
从同课异构角度看乡村初中英语课堂中学习活动观的实践-李梦晓
2024-10-09
同课异构,呈现精彩课堂-以“认识平行线”教学为例胡梦文 同课异构应用于《认识平行线》教学实践探索
2024-10-09
mobilenet-v2-b0353104 resnet18-5c106cde resnet34-333f7ec4 预训练模型
2024-09-24
生成式人工智能对课堂教学的变革影响 文 - 孙 众
2024-08-28
我国 2013-2023 年课堂视频分析的研究现状 * -基于 CiteSpace 的可视化林芷洁,杨玉宝
2024-08-28
表情分类模型-基于人脸 emotion.pth
2024-08-20
生成式 AI 商业落地白皮书 给 CXO 的 AI 转型战术指南
2024-07-28
读论文Rethinking the Role of Demonstrations What Makes In-Context
2024-03-09
读论文Rethinking the Role of Demonstrations What Makes In-Context
2024-03-09
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人