自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(44)
  • 收藏
  • 关注

原创 从零开始傅里叶变换

从零开始傅里叶变换1 Overview2 傅里叶级数2.1 基向量2.2 三角函数系表示 f(t)f(t)f(t)2.2.1 三角函数系的正交性2.2.2 三角函数系的系数2.3 复指数函数系表示 f(t)f(t)f(t)2.3.1 复指数函数系的系数2.3.2 复指数函数系的正交性2.4 傅里叶级数总结3 傅里叶变换1 OverviewMotivation:从时域转换到频域。相当于提取了信号的频率特征,可以做进一步的处理和分析。对于时域内的一个信号 f(t)f(t)f(t) ,可以通过傅里叶变换

2024-05-23 19:01:01 632 1

原创 On Protecting the Data Privacy of Large Language Models (LLMs): A Survey -论文翻译

大型语言模型 (LLMs) 是复杂的人工智能系统,能够理解、生成和翻译人类语言。他们通过分析大量的文本数据来学习语言模式,使其能够执行写作、对话、总结等语言任务。当 LLMs 处理并生成大量数据时,存在一个泄露敏感信息的风险,这可能会威胁数据隐私。本文着重于阐明与 LLMs 相关的数据隐私问题,以促进一个全面的理解。具体来说,我们进行了一个彻底的调查,来描述数据隐私威胁的范围,包括 LLMs 中的被动隐私泄露和主动隐私攻击。

2024-05-20 23:31:22 685

原创 Large Language Models Are Latent Variable Models: Explaining and Finding Good Demonstrations - 论文翻译

近年来,预训练的大型语言模型 (LLMs) 在实现被称为上下文学习的推理时的少样本学习能力方面表现出显着的效率。然而,现有文献强调了这种能力对少镜头演示选择的敏感性。目前对这种能力的潜在机制的理解,即其能力来自常规的语言模型的预训练目标,仍然与现实世界的 LLMs 断开连接。本研究旨在通过一个贝叶斯透镜检查上下文学习现象,将现实世界的 LLMs 视为潜在变量模型。在此前提下,我们提出了一种用一个小 LM 从一组注释数据中选择最佳演示的算法,然后将选定的演示直接推广到更大的 LM。

2024-05-08 17:04:17 845

原创 MasterKey: Automated Jailbreaking of Large Language Model Chatbots - 论文翻译

大型语言模型 (LLMs) 由于其非凡的理解、生成和完整的像人类的文本的能力而迅速激增, LLM 聊天机器人也因此成为非常流行的应用。这些聊天机器人容易受到越狱攻击,也就是一个恶意用户操纵提示来揭示对使用策略来说敏感的、专有的或有害的信息。虽然已经进行了一系列越狱尝试来暴露这些漏洞,但我们在本文中的实证研究表明现有方法对主流 LLM 聊天机器人无效。它们降低功效的根本原因似乎是由服务提供商部署的以对抗越狱尝试的未披露的防御。

2024-05-06 18:52:15 953

原创 On evaluating adversarial robustness of large vision language models - 论文翻译

GPT-4 等大型视觉语言模型 (VLM) 在响应生成方面取得了前所未有的性能,尤其是在视觉输入的情况下,与 ChatGPT 等大型语言模型相比,可以实现更具创造性和适应性的交互。尽管如此,多模态生成加剧了安全问题,因为对手可以通过巧妙地操纵最脆弱的模态(例如视觉)来成功地避开整个系统。为此,我们建议在最现实和高风险的环境中评估开源大型VLM的鲁棒性,其中对手只有黑盒系统访问,并试图欺骗模型返回目标响应。

2024-04-28 17:28:37 945

原创 Open sesame! universal black box jailbreaking of large language models - 论文翻译

大型语言模型 LLMs,旨在为提供有用和安全的响应,通常依赖于对齐技术来与用户意图和社会指南保持一致。不幸的是,这种对齐可以被恶意行为者利用,试图操纵LLM的输出,以达到意想不到的目的。在本文中,我们介绍了一种新方法,该方法使用遗传算法 (GA) 并在模型架构和参数无法访问的情况下操纵 LLM。GA攻击通过优化一个通用的对抗提示来工作,即当与用户的查询相结合时——破坏被攻击模型的对齐机制,来导致意外和潜在有害的输出。我们的新方法通过揭示其响应偏离预期行为的实例来系统地揭示了模型的局限性和漏洞。

2024-04-24 09:56:25 1280

原创 Gradient-based Adversarial Attacks against Text Transformers - 论文翻译

我们提出了第一个针对 transformer 模型的基于梯度的通用对抗性攻击。我们没有搜索单个对抗性示例,而是搜索由连续值的矩阵参数化的对抗性示例的分布,从而实现基于梯度的优化。我们凭实验说明,我们的白盒攻击在各种自然语言任务上实现了最先进的攻击性能,在匹配不可感知性——如每次自动化和人工评估——的对抗性成功率方面优于之前的工作。此外,我们展示了一个强大的黑盒迁移攻击,通过从对抗性分布中采样来实现,它匹配或超过了现有方法,而只需要硬标签输出。

2024-04-19 09:09:57 906

原创 Hard Prompts Made Easy: Gradient-Based Discrete Optimization for Prompt Tuning and Discovery - 论文翻译

现代生成模型的优势在于它们能够通过基于文本的提示来控制。典型的“硬”提示由可解释的单词和标记组成,并且必须由人类手工制作。也有“软”提示,由连续的特征向量组成。这些可以使用强大的优化方法发现,但它们不能被轻易解释、跨模型重用或插入基于文本的界面。我们描述了一种通过有效的基于梯度的优化来稳健地优化硬文本提示的方法。我们的方法自动为文本到图像和文本到文本应用程序生成硬基于文本的提示。

2024-04-16 14:06:06 972

原创 论文翻译 - Multilingual Jailbreak Challenges in Large Language Models

虽然大型语言模型 (LLMs) 在广泛的任务中表现出显着的能力,但它们带来了潜在的安全问题,例如“越狱”问题,其中恶意指令可以操纵 LLMs 以表现出不良行为。尽管已经开发了几种预防措施来减轻与 LLMs 相关的潜在风险,但它们主要集中在英语上。在这项研究中,我们揭示了 LLMs 中多语言的越狱挑战的存在,并考虑了两种潜在的危险场景:无意和有意的。无意的场景涉及用户使用非英语提示查询 LLMs 并无意中绕过安全机制,而有意的场景涉及恶意用户将恶意指令与多语言提示相结合来故意攻击 LLMs。

2024-03-26 11:09:25 950

原创 论文翻译 - AutoDAN Generating Stealthy Jailbreak Prompts on Aligned Large Language Models

对齐的大型语言模型 (LLMs) 是强大的语言理解和决策工具,它们通过与广泛的人类反馈的对齐来创建。然而,这些大型模型仍然容易受到越狱攻击的影响,其中对手操纵提示来引出不应该由对齐的 LLMs 给出的恶意输出。研究越狱提示可以让我们深入研究 LLMs 的局限性,并进一步指导我们增强它们的安全性。

2024-03-25 22:52:52 1305

原创 论文翻译 - Defending Against Alignment-Breaking Attacks via Robustly Aligned LLM

最近,大型语言模型 (LLM) 取得了重大进展,现在广泛用于各个领域。不幸的是,人们越来越担心llm可能被滥用来生成有害或恶意的内容。尽管一项研究侧重于将 LLM 与人类值对齐并防止它们产生不适当的内容,但这种对齐通常很容易受到攻击,并且可以通过对抗性优化或手工制作的越狱提示来绕过对齐进行攻击。在这项工作中,我们引入了一个鲁棒对齐LLM (RA-LLM)来防御潜在的对齐破坏攻击。

2024-03-25 15:34:30 848

原创 论文翻译 - Automatically Auditing Large Language Models via Discrete Optimization

为意外行为审计大型语言模型对于抢占灾难性部署至关重要,但仍然具有挑战性。在这项工作中,我们将审计视为优化问题,其中我们自动搜索与所需目标行为匹配的输入输出对。例如,我们可能目标是找到一个无毒的输入,该输入从“Barack Obama”开始,模型会将其映射到一个有毒的输出。这个优化问题很难解决,因为可行的点集是稀疏的,空间是离散的,而且我们审计的语言模型是非线性的和高维度的。为了应对这些挑战,我们引入了一种离散优化算法ARCA,该算法联合且有效地优化了输入和输出。

2024-03-21 11:00:53 1154

原创 论文翻译 - Cross-Modal Transferable Adversarial Attacks from Images to Videos

最近的研究表明,在一个白盒模型上手工制作的对抗样本可用于攻击其他黑盒模型。这种跨模型可转移性使得执行黑盒攻击成为可能,这对现实世界的 DNN 应用程序提出了安全问题。然而,现有的工作主要集中在研究共享相同输入数据模态的不同深度模型之间的对抗性可迁移性。对抗性扰动的跨模态可迁移性从未被探索过。本文研究了对抗性扰动在不同模式下的可迁移性,即利用白盒图像模型生成的对抗性扰动来攻击黑盒视频模型。

2024-03-21 10:59:32 709

原创 论文翻译 - Universal and Transferable Adversarial Attacks on Aligned Language Models

由于“开箱即用”大型语言模型能够生成大量令人反感的内容,最近的工作集中在对齐这些模型以试图阻止不想要的生成。虽然在规避这些措施方面取得了一些成功——所谓的针对 LLMs 的“越狱”——但这些攻击需要大量的人类创造力,在实践中很脆弱。自动的对抗提示生成的尝试也只取得了有限的成功。在本文中,我们提出了一种简单有效的攻击方法,该方法会导致对齐的语言模型产生令人反感的行为。

2024-03-20 20:04:26 1079

原创 论文翻译 - HotFlip: White-Box Adversarial Examples for Text Classification

我们提出了一种有效的方法来生成白盒的对抗样本去欺骗一个字符级的神经分类器。我们发现只需要很少的一些操作就能大大降低准确性。我们的方法依赖于一个原子级的翻转操作,也就是根据 one-hot 的输入向量的梯度,将一个token转换成另一个。由于我们方法的有效性,我们可以执行对抗训练,来使模型在测试时对攻击更加鲁棒。通过使用一些语义保持的约束,我们证明 HotFlip 也可以适用于对单词级的分类器的攻击。

2024-03-19 21:31:49 880

原创 论文翻译 - Baseline Defenses for Adversarial Attacks Against Aligned Language Models

随着大型语言模型迅速变得无处不在,了解它们的安全漏洞变得至关重要。最近的工作表明,文本优化器可以产生能绕过审核和对齐的越狱的提示。从对抗性机器学习的丰富工作中汲取灵感,我们用三个问题来处理这些攻击:在这个领域中哪些威胁模型是很有用?基线的防御技术是如何在这个新领域执行的?LLM 的安全性如何不同于计算机视觉?我们评估了几种针对 LLMs 领先的对抗性攻击的基线防御策略,讨论了不同的可行和有效的设置。特别的,我们研究了三种类型的防御:检测(基于困惑度)、输入预处理(释义和重新标记)和对抗训练。

2024-03-19 11:55:07 933

原创 论文翻译 - Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs

随着大型语言模型 (LLMs) 的快速发展,新的和难以预测的有害能力正在出现。这需要开发人员能够通过评估“危险能力”来识别风险,来可靠地部署 LLMs。在这项工作中,我们收集了第一个开源数据集来评估 LLMs 中的安全保障措施,并以一个低成本部署了一个更安全的开源 LLMs。我们的数据集经过仔细挑选和过滤,只包含了可靠的语言模型不应遵循的指令。我们注释和评估了六个流行的 LLMs 对这些指令的响应。

2024-03-18 10:56:54 939

原创 论文翻译 - BITE: Textual Backdoor Attacks with Iterative Trigger Injection

后门攻击已成为 NLP 系统的新兴威胁。通过提供被投毒的训练数据,攻击者可以将“后门”嵌入到受害模型中,这允许满足某些文本模式(例如,包含关键字)的输入实例被预测为敌手选择的目标标签。在本文中,我们证明了设计一种既隐蔽(即难以注意)又有效(即攻击成功率较高)的后门攻击是可能的。我们提出了 BITE,这是一种后门攻击,它投毒训练数据以建立目标标签和一组“触发词”之间的强相关性。这些触发词通过自然单词级的扰动迭代地识别和注入到目标标签实例中。中毒的训练数据指示受害模型在包含触发词的输入上预测目标标签,形成后门。

2024-03-12 15:53:44 1129

原创 论文翻译 - Abusing Images and Sounds for Indirect Instruction Injection in Multi-Modal LLMs

我们展示了图像和声音如何用于多模态 LLMs 中的间接提示和指令注入。攻击者生成与提示相对应的对抗性扰动,并将其混合到图像或音频记录中。当用户向(未经修改的,良性的)模型询问关于扰动图像或音频时,扰动会引导模型输出攻击者选择的文本和/或使后续对话遵循攻击者定下的指令。我们用几个针对 LLaVA 和 PandaGPT 的概念证明示例来说明这种攻击。

2024-03-11 11:20:30 919

原创 论文翻译 - Visual Adversarial Examples Jailbreak Large Language Models

最近,人们对将视觉集成到大型语言模型 (LLM) 中的兴趣激增,例如 Flaminggo 和 GPT-4 等视觉语言模型 (VLM)。本文阐明了这一趋势的安全性和安全性影响。首先,我们强调视觉输入的连续和高维的性质使其成为对对抗性攻击的薄弱环节,这意味着视觉集成的LLM有更大可能被攻击。其次,我们强调LLM的多功能性也为视觉攻击者提供了更多的可实现对抗目标,这扩大了安全问题的影响,不再仅仅是分类错误。

2024-03-06 21:03:04 851

原创 论文翻译 - Are aligned neural networks adversarially aligned?

现在大型语言模型被调整为和创建者的目标对齐,即“有用和无害”。这些模型应该对用户问题做出有益的反应,但拒绝回答可能导致伤害的请求。然而,对抗性用户可以构建输入来绕过对齐的尝试。在这项工作中,我们研究了当与构建最坏情况输入(对抗性示例)的敌手用户交互时,这些模型能在多大程度上还保持对齐。这些输入旨在使模型发出原本被禁止的有害内容。我们表明,现有的基于 NLP 的优化攻击不足以可靠地击破对齐的文本模型:但即使当前基于 NLP 的攻击失败了,我们还可以通过暴力破解找到对抗性输入。

2024-03-05 15:48:48 805

原创 论文翻译 - T5大模型 - Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer

迁移学习,也就是模型首先在数据丰富的任务上进行预训练,然后再对下游任务进行微调,已成为自然语言处理 (NLP) 中的强大技术。迁移学习的有效性催生了多样的途径、方法和实践。在本文中,我们通过引入一个统一的框架来探索 NLP 的迁移学习技术的前景,该框架将所有基于文本的语言问题转化为文本到文本的格式。我们的系统研究比较了数十个语言理解任务的预训练目标、架构、未标记数据集、迁移方法和其他因素。

2024-02-01 15:15:48 868

原创 docker下centOS 8对python, java, node, ffmpeg的下载和项目的配置

docker下centOS 8对python3.9, java1.8, node, ffmpeg的下载。

2023-07-24 18:09:30 211

原创 python中调用java函数

【Ctrl+Shift+Alt+S】或者“File --> Project Structure --> Project Settings” 选择Artifacts选项卡,点击+号,选择"JAR --> From modules with dependencies…选择"Build --> Build Artifacts…--> %Project Name%:jar --> Build",在out文件夹中会生成该项目的jar文件。选择一个Main Class作为项目的启动文件,然后点OK。

2023-06-30 17:45:03 585

原创 [WinError 10048] 通常每个套接字地址(协议/网络地址/端口)只允许使用一次

注意:一开始在用命令行kill进程时,发现每次kill完,再次查看端口情况时还是在占用,进程PID号换了一个。后来发现是因为占用端口的程序DHPlayer.exe有另一个DHPlayerKeeper.exe在一直保持该程序的运行,而这在命令行很难发现。问题描述:在跑django时提示“[WinError 10048] 通常每个套接字地址(协议/网络地址/端口)只允许使用一次”,也就是django默认的8000端口被占用。虽然可以换成其他端口,但我确认没有后台程序在跑,应该是其他应用占了端口。

2023-06-29 10:29:37 2020 1

原创 神经网络框架——从加载数据到展示结果

【代码】神经网络框架——从加载数据到展示结果。

2022-11-25 10:28:01 204 1

原创 python numpy 相关tips

1. 找到列表中重复次数最多的五个元素from collections import Counter# 统计出现次数num_times = Counter(test_list)# 将其根据出现次数(item[1])进行降序排序order_num = sorted(num_times.items(),key = lambda item:item[1], reverse = True)# 取重复次数最大的五项元素five_main_elements = np.zeros(5)for i

2021-03-24 10:12:36 110

原创 python TypeError: object of type ‘NoneType‘ has no len()

造成这个错误的原因多种多样,这次是因为stack我写成了self.stack = self.stack.append(i)然而append的返回是None

2020-10-31 22:09:00 1934

原创 java有两个版本切换时遇到的问题(错误描述: Eclipse is running under 0, but...)

错误描述: Eclipse is running under 0, butthis Java project has a 10 Java compliance level, so WindowBuilder will not be able to load classesfrom this project. Use a lower level of Java for the project, or run Eclipse using a newer Javaversion.在使用Eclipse的win.

2020-08-26 21:15:49 883

原创 python: 找到dataframe某列中含有特定字段字符串的行 & 遍历dataframe & 函数返回为空 & 找到特定单元格

题目描述:6.) Proving Afzal WrongWe have detoured from the original aim of this question for long enough. Compare the popularity of dance music genres and pop music genres across the dataset using appropiate visualisation/s. Make the assumption that the pop

2020-05-25 22:46:46 8184

原创 朴素贝叶斯(Naive Bayes Classifier)相关参考资料链接

1.http://www.luyixian.cn/news_show_3477.aspx改进朴素贝叶斯独立性假设的方法讲解2.https://kns.cnki.net/KCMS/detail/detail.aspx?dbcode=CMFD&dbname=CMFD202001&filename=1019690701.nh&v=MzA3NjRSN3FmWXVackZ5cmtWcjdMVkYyNkY3V3hIdGJNcnBFYlBJUjhlWDFMdXhZUzdEaDF...

2020-05-11 13:05:32 541

原创 python dataframe相关tips

1.将NaN替换为0# 将df出现的所有NaN替换为0df.fillna(0, inplace = True)# 将第一列出现的NaN替换为0df[0].fillna(0, inplace = True)

2020-05-05 16:59:59 264

原创 Leetcode 1. Two Sum (Hashmap)

Given an array of integers, returnindicesof the two numbers such that they add up to a specific target.You may assume that each input would haveexactlyone solution, and you may not use thesamee...

2019-07-18 22:10:00 142

原创 workon'提示"'workon' 不是内部或外部命令,也不是可运行的程序 或批处理文件。

情况:系统中同时存在Python2.7和Python3.7,环境变量使用Python3.7和Python3.7\Scripts。在按照教程执行'pip install virtualenvwrapper'操作后,执行'workon'提示"'workon' 不是内部或外部命令,也不是可运行的程序 或批处理文件。"且若执行'pip uninstall virtualenvwrapper'操作提示vi...

2019-06-06 09:22:18 8347 3

原创 ERROR: The executable E:\路径名称\Scripts\python2.exe is not functioning

在用python3创建的virtualenv文件中,创建一个python2.7的virtualenv,以便python2和3可以来回切换。解决方法:路径全英文(╬▔皿▔)凸

2019-06-04 22:43:37 5700

原创 pip Error: Fatal error in launcher: Unable to create process using '"'

一开始下的python2.7,后来下了python3,并且将python2的可执行文件改成python2.exe,将python3的pip命令改为pip3令其与python2共存。后来因为某些原因,我把python2.7卸了又重新下了一遍,却发现python2.7的pip命令一直显示Fatal error in launcher: Unable to create process using '"...

2019-06-04 22:15:25 145

原创 690. Employee Importance

You are given a data structure of employee information, which includes the employee'sunique id, hisimportance valueand hisdirectsubordinates' id.For example, employee 1 is the leader of employe...

2019-05-28 18:11:25 132

原创 数据结构课程设计——图结构

目录存储结构图的遍历相关算法及其应用存储结构邻接矩阵邻接表图的遍历深度优先遍历bool edg[100][100];bool visited[100];memset(edg, 0, sizeof(edg));memset(visited, 0, sizeof(visited));vector<int> result;int num;//节...

2019-05-20 11:12:43 1745

原创 DFS&BFS模板

#include <iostream>#include <cstdio>#include <cmath>#include <algorithm>#include <cstring>#include <vector>#include <queue>using namespace std;bool ...

2019-05-13 10:57:27 121

原创 二分查找中mid取值注意

如果用mid=(left+right)/2,在运行二分查找程序时可能溢出超时。因为如果left和right相加超过int表示的最大范围时就会溢出变为负数。所以如果想避免溢出,不能使用mid=(left+right)/2,应该使用mid=left+(right-left)/2。...

2019-03-25 09:44:27 3109

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除