- 博客(1419)
- 资源 (64)
- 收藏
- 关注
原创 【大模型越狱】【NeurIPS 2023】 Jailbroken: How Does LLM Safety Training Fail?
经过安全和无害训练的大型语言模型仍然容易受到对抗性滥用,对 ChatGPT 早期版本的普遍“越狱”攻击就证明了这一点,这些攻击会引发不良行为。除了认识到问题之外,我们还调查了此类攻击成功的原因以及如何创建它们。我们假设安全训练的两种失败模式:竞争目标(competing objectives)和不匹配的泛化(mismatched generalization)。
2025-01-14 00:23:40 688
原创 教程 # 从 Transformers 库开始学习 NLP # 1 NLP基础与Transformer基础
UNILM 模型通过给 Transformer 中的 Self-Attention 机制添加不同的 MASK 矩阵,在不改变 BERT 模型结构的基础上同时实现了双向、单向和序列到序列(Sequence-to-Sequence,Seq2Seq)语言模型,是一种对 BERT 模型进行扩展的优雅方案。大部分情况下,我们都不会从头训练模型,而是将别人预训练好的模型权重通过迁移学习应用到自己的模型中,即使用自己的任务语料对模型进行“二次训练”,通过微调参数使模型适用于新任务。
2025-01-09 00:39:00 1044
原创 【大模型安全】Refuse Whenever You Feel Unsafe: IMPROVING SAFETY IN LLMS VIA DECOUPLED REFUSAL TRAINING
本研究针对大型语言模型(LLMs)安全调优实践中的关键差距,通过识别和解决安全调优数据中的 refusal position bias,该偏差损害了模型拒绝生成不安全内容的能力。我们引入了一种新颖的方法,解耦拒绝训练(DeRTa),旨在使 LLMs 能够在任何响应位置拒绝有害提示,显著提高其安全性。DeRTa 包含两个新颖组件:(1)带有有害响应前缀的最大似然估计(MLE),通过在安全响应的开头添加一段有害响应来训练模型识别和避免不安全内容;
2025-01-06 12:35:11 736
原创 Refusal in Language Models Is Mediated by a Single Direction
会话型大语言模型针对指令遵循和安全性进行了微调,从而产生服从良性请求但拒绝有害请求的模型。虽然这种拒绝行为在聊天模型中普遍存在,但其背后的机制仍然知之甚少。在这项工作中,我们展示了拒绝是由一维子空间介导的,涉及 13 个流行的开源聊天模型,参数大小高达 72B。具体来说,对于每个模型,我们找到一个单一方向,这样从模型的残余流激活(residual stream activations)中删除该方向可以防止其拒绝有害指令,而添加该方向会导致拒绝甚至无害的指令。利用这一见解,我们提出了一种新颖的白盒越狱方法。
2024-12-24 00:23:07 1321
原创 [NeurIPS 2024] Improving Alignment and Robustness with Circuit Breakers
人工智能系统可能会采取有害行为,并且非常容易受到对抗性攻击。受表示工程最新进展的启发,我们提出了一种方法,当模型用“断路器”响应有害输出时,该方法会中断模型。旨在改善一致性的现有技术,例如拒绝训练,经常被绕过。对抗性训练等技术试图通过对抗特定攻击来堵塞这些漏洞。作为拒绝训练和对抗性训练的替代方案,circuit-breaking 首先直接控制那些造成有害输出的表征。我们的技术可以应用于纯文本和多模式语言模型,以防止有害输出的生成,而不会牺牲实用性——即使存在强大的看不见的攻击。
2024-12-16 00:38:33 589
原创 [COLM 2024] V-STaR: Training Verifiers for Self-Taught Reasoners
大型语言模型 (LLMs) 的常见自我改进方法(例如 STaR)会在自我生成的解决方案上迭代微调 LLMs,以提高其解决问题的能力。然而,这些方法丢弃了在此过程中生成的大量不正确的解决方案,可能忽略了此类解决方案中的有价值的信息。为了解决这个缺点,我们提出了 V-STaR,它利用自我改进过程中生成的所有正确和错误的解决方案来训练使用 DPO 的验证器,以判断模型生成的解决方案的正确性。该验证器用于在推理时从许多候选解决方案中选择一个解决方案。
2024-12-11 19:32:16 978
原创 [NeurlPS 2022] STaR 开源代码实现解读
结合代码以及论文解读现在重新来理解论文。论文基本思路是,先给出few-shot,让模型参考few-shot在回答answer前带上rationales,如果回答不正确,就加上hint回答,最终把回答正确的样本留下进行下一轮微调。在具体代码实现上,首先在 eval_examples 中,对样本做了个 batch 级别的 cache,每满8个,才执行对应的推理(回答)。这里维护了两个cache 队列,一个是回答正确的队列,一个是直接回答失败的队列(因此,用合理化修改了原始prompt)。
2024-12-08 23:43:13 1043
原创 [NeurlPS 2022] STaR: Self-Taught Reasoner Bootstrapping Reasoning With Reasoning
生成逐步的“思维链”理由(rationales)能够提高语言模型在复杂推理任务上的表现,比如数学或常识问答。然而,目前诱导语言模型生成理由要么需要构建庞大的理由数据集,要么只能通过少量样本推理牺牲准确性。我们提出了一种技术,通过迭代利用少量理由示例和一个没有理由的大型数据集,来引导模型逐渐掌握更复杂的推理能力。生成理由以回答许多问题,提示一些理由示例;如果生成的答案是错误的,尝试在给定正确答案的情况下再次生成理由;对所有最终得出正确答案的理由进行微调;重复这个过程。
2024-12-05 00:14:56 708
原创 Machine Learning is All You Need: A Simple Token-based Approach for Effective Code Clone Detection
本文介绍了一种名为 Toma 的代码克隆检测方法,它使用令牌和机器学习来检测代码克隆。通过提取令牌类型序列并使用六种相似度计算方法生成特征向量,然后将这些向量输入到训练好的机器学习模型中进行分类。实验结果表明,Toma在效率和可扩展性方面都优于基于令牌的代码克隆检测器和大多数基于树的克隆检测器。数据集:BigCloneBench。
2024-11-29 01:57:05 1032
原创 推荐系统 # 三、推荐系统排序层:粗排/精排、融分、排序模型特征工程
本文详细介绍了推荐系统中的排序层,对粗排、精排算法进行了介绍,同时介绍了多目标模型、MMoE模型、估分和融分、排序模型特征工程等相关知识。
2024-10-30 19:21:10 292
原创 推荐系统 # 二、推荐系统召回:协同过滤 ItemCF/UserCF、离散特征处理、双塔模型、自监督学习、多路召回、曝光过滤
线上环境:缺点:社群对算法的误导。
2024-10-19 23:58:18 695
原创 软件安全漏洞分析与发现 复习笔记
略。查ppt。修正:上图中的语句2 的可到达语句不包括4。定义集合我们先确定每个语句的 Gen 和 Kill 集合:路径分析接下来我们分析从入口到 [9] 的所有路径:在每个路径上,我们计算每个语句的 In 和 Out 集合。路径1: [0] -> [1] -> [2] -> [3] -> [4] -> [5] -> [9]In(0) = {}
2024-06-12 16:53:09 1017
原创 Orange Pi AI Pro 开箱 记录
香橙派 AIpro配备了强大的硬件配置,包括8GB内存、电源、散热组件和32GB存储卡。这些硬件为AI开发提供了充足的资源和稳定的运行环境。OrangePi AIpro(8T)采用昇腾AI技术路线,4核64位处理器+AI处理器,集成图形处理器,支持8TOPS AI算力,拥有8GB/16GB LPDDR4X,可以外接32GB/64GB/128GB/256GB eMMC模块,支持双4K高清输出。
2024-06-06 21:44:03 1111
原创 Neo4j+LLM+RAG 环境配置报错处理
打开Neo4j的配置文件(通常是neo4j.conf),找到dbms.security.procedures.unrestricted这一项。确保该项设置为允许使用apoc插件。你可以将其设置为apoc.*,这将允许所有apoc的过程,或者你也可以根据需要设置更具体的值。解决方案,安装插件。我的版本是:neo4j-community-4.4.26。重启Neo4j:保存配置文件并重启Neo4j数据库,以使新的安全设置生效。下载对应的:apoc-4.4.0.26-all.jar。没有安装APOC插件。
2024-05-05 16:53:55 2815 3
原创 USENIX Security 安全顶会文献阅读:《ALASTOR : Reconstructing the Provenance of Serverless Intrusions》
ALASTOR 是一个基于溯源的审计框架(provenance-based auditing framework),用于精确跟踪无服务器应用中的可疑事件。无服务器计算将传统应用分解成短暂的、可重入的函数,使攻击者能够在合法工作流中隐藏其活动,并通过滥用暖容器重用策略破坏因果路径来阻止根因分析。ALASTOR 记录函数活动,在系统和应用层捕获每个函数实例的行为全貌,然后将来自不同函数的溯源信息在无服务器平台的中央仓库聚合起来,生成复杂函数工作流的全局数据溯源图。
2024-03-13 22:33:45 1120 2
原创 React 组件跨层级数据共享:createContext、useContext、useMemo
原本组件传递需要一层一层props传递,传递太过繁琐多个 context。
2024-02-04 22:01:46 594
原创 Python 轻量级定时任务调度:APScheduler
APscheduler (Advanced Python Scheduler),作用为按指定的时间规则执行指定的作业。提供了基于日期date、固定时间间隔interval 、以及类似于Linux上的定时任务crontab类型的定时任务。该框架不仅可以添加、删除定时任务,还可以将任务存储到数据库中,实现任务的持久化。
2024-02-04 00:00:56 1783
原创 ES6 语法精粹简读
ECMAScript 6.0(以下简称 ES6)是 JavaScript 语言的下一代标准,在 2015 年 6 月正式发布。目标是使得 JavaScript 语言可以用来编写复杂的大型应用程序,成为企业级开发语言。
2023-12-20 01:23:45 1108
原创 Anaconda 虚拟环境报错:pip is configured with locations that require TLS/SSL, however the ssl modu
Anaconda 虚拟环境中的 python pip 安装依赖时报错:WARNING: pip is configured with locations that require TLS/SSL, however the ssl module in Python is not available.Looking in indexes: https://mirrors.aliyun.com/pypi/simple/WARNING: Retrying (Retry(total=4, connect=Non
2023-12-13 01:19:24 1330
原创 安全开发:身份认证方案之 Google 身份验证器和基于时间的一次性密码 TOTP 算法
目前很多应用都逐步采用了双因子认证或者说MFA认证方案,因此本文介绍一下背后的机制和原理。使用TOTP算法,只要满足两个条件:1)基于相同的密钥;2)时钟同步;只需要事先约定好密钥,TOTP算法就可以保证校验段和被校验端具有相同的输出。
2023-12-11 13:49:51 3393
原创 软件安全学习课程实践3:软件漏洞利用实验
1.1.1 和 1.1.2 直接 F5 看 flag 就可以了,故略。1.1.3 对输入用了算法变换,能看到flag,比如输入x,经过f处理成f(x)然后判断f(x)=y,现在要破解f的算法然后写个逆预算g(y)=x这个代码看起来很抽象,因为 IDA 没有正确的恢复这里的变量结构。选中变量按“N”重命名,按“Y”更改类型这里很明显是一个buf数组,IDA识别成两个变量,按Y修改为char buf[20]数组。
2023-11-17 01:22:29 408
原创 快手 KDD 2023 入选论文解读 # Graph Contrastive Learning with Generative Adversarial Network
问题:现有的 GCL 方法没有考虑图的分布,导致对于潜在边(unseen edges)的缺失考虑,利用这个信息在实验中可以提高 GCL 的性能。方法:本文利用 GAN 来学习图分布,提高数据增强的能力,然后联合训练 graph GAN 和 GCL 模型,即提出的 GACN 模型。GACN 利用 generator 生成的 views 并以 graph contrastive loss 和 bayesian personalized ranking loss 这两个自监督损失来训练 GNN encoder。
2023-08-06 01:50:57 1046 3
原创 Mac 终端快捷键设置:如何给 Mac 中的 Terminal 设置 Ctrl+Alt+T 快捷键快速启动
Mac 电脑中正常是没有直接打开终端命令行的快捷键指令的,但可以通过 command+space 打开聚焦搜索,然后输入 ter 或者 terminal 全拼打开。系统偏好设置→键盘→快捷键→服务→通用中找到刚才命名的脚本,【打开Terminal】,然后配置快捷键即可。1.command+space 打开聚焦搜索“automator”,显示的也可能是中文名的“自动操作”。然后可以点击运行【▶】测试一下是否能打开 terminal。保存,命名【打开Terminal】如下图所示:选择【服务】
2023-07-31 15:18:13 3029 1
原创 【密码原理】群与公钥加密体制:Diffie-Hellman密钥交换、ElGamal加密、零知识证明
本文主要介绍群、公钥密码体制以及DH协议、ElGamel加密和零知识证明ZKP基础,为后续进一步学习ZKP打下基础
2023-07-24 15:12:25 732
原创 文献阅读笔记 # SimCSE: Simple Contrastive Learning of Sentence Embeddings
SimCSE:Sentence Embedding + 对比学习
2023-07-09 14:24:19 780
原创 USENIX Security 23 论文解读 # VulChecker: Graph-based Vulnerability Localization in Source Code
基于AI实现的SAST实现漏洞检测、分类和精确定位
2023-07-09 01:06:06 1513
原创 模糊测试Fuzzing基础知识学习笔记
模糊测试(Fuzzing),是一种通过向目标系统提供并监视结果来发现软件漏洞的方法。在模糊测试中,用(也称做 fuzz)攻击一个程序,然后观察哪里遭到了破坏。模糊测试(Fuzz Testing)是一种自动化的软件测试技术,最初是由威斯康辛大学的巴顿·米勒于1989年开发的,通常用于识别程序中的潜在漏洞。模糊测试的核心是自动或半自动的生成随机数据输入到应用程序中,同时监控程序的异常情况,如崩溃、代码断言失败,以此发现可能的程序错误,如内存泄漏。
2023-07-02 01:49:22 1531
原创 安全研究 # Third-Party Library Dependency for Large-Scale SCA in the C/C++ Ecosystem: How Far Are We?
针对 C/C++ 生态系统的现有的软件成分分析(SCA)技术
2023-06-28 12:54:44 691 1
原创 略读 # SourcererCC: Scaling Code Clone Detection to Big Code
代码克隆检测在海量源码的场景下的解决方案
2023-06-27 16:50:32 644
C++_STL使用例子大全
2016-07-30
Learning the vi and Vim Editors
2016-07-28
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人