rebibabo-CSDN博客

原创一款方便、高效的基于tree-sitter的代码风格转换器，支持Python、C/C++和Java共100多种风格转换

实现了一款多语言代码等价语义转换器，基于tree-sitter开发工具包，对代码进行解析，并在具体语法树（concrete syntax tree, CST）树上进行节点的匹配和替换，支持Python、C/C++和Java共100多种风格转换，处理2000份代码仅需要13.6s。代码风格转换器可以应用在以下的场景后门/对抗攻击：实现隐蔽性高的攻击数据集扩展：提高模型性能和鲁棒性，使模型更好的对抗扰动模型水印：向数据集的代码注入水印，保护模型或数据集的产权统一风格：增强代码的可读性。

2024-08-15 15:45:19 1524 2

原创 Playwright使用教程【附爬取Leetcode题目URLs以及有道翻译小软件】

playwright是微软设计的一款工具，可以爬取网页，还可以自动化测试自己编写的网站，而且不像bs4、request编写爬虫那么复杂，也不需要考虑反爬技术，只需要知道最基础的前端知识，就可以高效、便捷的编写爬虫代码但是这篇文章不可能将playwright的所有功能全部讲到，但是覆盖了最基础的一些知识，如果想更系统的学习，可以参考playwright python的官方文档：https://playwright.dev/python/docs/intro。

2024-07-10 16:23:31 3043 1

原创如何合并pdf文件？告别软件，教你用python轻松解决

使用python实现pdf合并

2024-06-09 13:29:20 410 2

翻译 Examining Zero-Shot Vulnerability Repair with Large Language Models

研究代码大模型在漏洞修复的应用，设计提示信息使LLM生成不安全代码的修复版本，对五种现有黑盒大模型、一个开源模型以及本地训练模型，针对合成、人工生成和现实世界的安全漏洞场景进行了大规模研究。现有的代码修复有静态分析、模糊测试等，也有基于CNN机器翻译的修复软件缺陷模型，本文将探索以下四个问题现成的LLM能否生成安全且功能强大的代码来修复安全漏洞？改变提示注释中的上下文数量是否会影响LLM修复的能力？在现实世界中使用LLM修复漏洞时面临的挑战是什么？LLM在修复代码的可靠性如何？本文贡献。

2023-12-22 20:00:46 571

翻译 Piccolo exposing complex backdoors in NLP transformer models

逆向触发器的挑战：英语中的单词和BERT的词典不是一一对应的，可能找不到任何匹配的单词，句子触发器有可变的长度。本文提出的触发器反转技术Piccolo，能够先将目标模型转为可微的形式，具体而言，一个单词由单词向量表示，向量大小和词汇表大小相同，向量第i个元素表示该单词是词汇表第i个单词的概率，所有元素之和为1，然后将原始模型以one-hot向量表示单词的形式替换为这种单词向量，并进行多个可微矩阵乘法。在测试过程中，将这种单词向量还原为one-hot向量，和原始模型具有等效的行为。

2023-12-22 19:57:18 555

翻译 FREEEAGLE：Detecting Complex Neural Trojans in Data-Free Cases

现有许多后门防御都已知了一小部分干净样本或者带有触发器的样本，但是在一些真实场景满足不了，例如防御者共享模型平台的拥有者。本篇文章是针对复杂后门攻击的第一个data-free的后门检测方法，不需要获取任何干净样本或触发器样本，实验结果表明FREEEAGLE能有效对抗各种复杂的后门攻击，并且甚至比一些SOTA non-data-free的后门检测效果要更好。

2023-12-22 19:53:40 464

翻译 ASSET- Robust Backdoor Data Detection Across a Muliplicity of Deep Learning

大多数现有检测方法的性能在不同的攻击和中毒率下差异很大，并且在最先进的干净标签攻击中都失败了。本文提出的ASSET方法可以让后门和干净样本之间产生不同的模型行为，以促使它们分离，还提供了自适应地选择要删除的可疑点的数量的程序，ASSET在不同攻击的防御性能一致性和对中毒率变化的鲁棒性方面优于现有方法；。最近关于后门检测的工作主要利用在中毒数据集上的训练期间缓存信息（这个和我们的方法类似），提取每个样本的后门模型输出，中间激活模式、以及梯度，然后根据提取的信息将毒物从干净样本中分离出来。

2023-12-22 19:50:05 349

翻译 MasterKey- Automated Jailbreak Across Multiple Large Language Model Chatbots阅读笔记

越狱攻击：攻击者使用提示绕过LLM聊天机器人实施的安全措施，导致其产生违反自身使用政策的响应和有害内容。例如图1显示了这样一个示例。攻击者需要创建一个越狱提示词，有助于隐藏恶意问题，指导LLM创建和传播恶意响应。然而目前研究主要集中在越狱攻击，很少有研究预防机制，其次LLM如何加强防御是各自的严密信息，在越狱失败之后，只能得到例如“我无能为力”的信息，进一步妨碍我们对这些防御机制的理解，本文将回答他们是否足够有效。

2023-12-22 19:46:28 604

翻译 Universal and Transferable Adversarial Attacks on Aligned Language Models阅读笔记

大型语言模型通常在从互联网上抓取的大量文本语料库上进行训练的，这些语料库可能包含令人反感的内容，最近也有LLM的开发人员通过各种微调机制来调整这些模型，这些方法总体目标是确保LLM不会对用户查询产生有害的响应。已有研究产生”越狱”的攻击方法，是精心设计的提示，导致对齐的LLM生成明显令人反感的内容，然后与传统对抗性例子不同，这些越狱通常是独创的，直观的将模型引入歧途，而不是自动化的方法，这很大程度是因为和CV不同，LLM对于离散token的输入进行操作，限制了有效输入维度，也导致空间搜索的困难。

2023-12-22 19:36:36 1067 1

原创包你学会使用markdown以及latex公式【超详细】【含例子】

包含了标题格式、常用段落块、快捷键、以及Latex公式，希腊字母、标注符号、运算符号、大型运算符号、分式根式、定界符等

2023-10-13 11:44:08 1422

原创 Ubuntu20.04如何安装中文输入法

点击Region & Language，并点击Manage Installed Languages，可能会缺少某些包让你下载，点击下载先把相关包安装好，要等几分钟。点击Install / Remove Languages...，然后点击Chinese(simpilfied)，接着点击Apply，安装汉语言包，等待几分钟。下载好安装包设置语言之后可能需要重新启动系统，重启完之后应该可以在右上角看到新安装好的汉语言包了。此时，打开firefox，用Shift切换中英文，或者手动在右上角切换，就可以输入中文啦。

2023-09-10 11:05:40 1581 1

原创执行model.load_state_dict报错map_location=torch.device(‘cpu‘)以及Unexpected key(s) in state_dict

本蒟蒻原先是在有GPU的服务器上训练得到了模型，现在想在没有GPU的服务器部署网页，需要加载该模型，当运行了下面代码时。是因为没有将state_dict转移到CPU上，在PyTorch中，可以通过指定。仔细查看提示信息，发现是有一个未知的Key，我把它删掉竟然就跑通了。我打印出了两台服务器中state_dict的内容。打印的内容都是一样的，都是下面的内容。

2023-08-02 10:51:54 2500