岚宇-CSDN博客

原创 “Don’t forget to put the milk back!” 论文极速读

场景图：文中直接使用模拟器VirtualHome提供的场景图来给LLM进行判断，节点node为物品，边edge为关系，让LLM来判断是否属于（‘normal’, ‘unsafe’, ‘unsanitary’, or ‘unsafe for children’）这几类。该论文指出家用机器人应当具有帮助主人找出家庭环境中蕴含危险的地方，比如不卫生的行为：冰箱里面的水果已经腐烂，对于孩子来讲不安全的行为：菜刀直接放置在餐桌上等。同时在现实场景中使用检测方法生成的场景图或许不会这么完善。

2025-02-12 11:48:47 368

原创 Jailbreaking LLM-Controlled Robots论文极速读

该论文将该团队原本的对于chatbot的攻击方法迁移到对于搭载了LLM的智能机器人上面。首先来看一下之前越狱聊天机器人chatbot所使用的攻击方法PAIR首先使用两个LLM与chatbot做交互，通过prompt指示attacker来生成能够对LLM进行越狱的文本，然后将chatbot返回的文本交给judge模型来打分判断文本是否有害。将越狱攻击chatbot的模型应用到攻击embodied ai有两个难点1.原本的越狱攻击主要是让chatbot生成有害文本而不是做出有害的行为2.就算让LLM产生

2025-01-26 15:19:10 597

原创 Don’t Let Your Robot be Harmful: Responsible Robotic Manipulation论文极速读

首先使用一个LMM（作者称为large multimodal model）文中使用的是GPT4，来生成k个不同的包含语义危险的文本场景，然后使用一个Renderer（文中使用的是DALL·E-3）来给文本对生成一幅图像，作为对语义危险场景的数据扩充。在第一行的场景中机械臂被指示将叉子插入海绵中，但是环境中在海绵之上存在着打火机，那么训练之后的机械臂中的核心，也即内部配置的LLM就会知晓生成代码的过程中需要首先将海面上的打火机移开才能确保安全。点燃蜡烛，但是附近会有面粉，会有爆燃风险。

2025-01-26 11:21:31 565

原创 Exploring the Adversarial Vulnerabilities of Vision-Language-Action Models in Robotics论文极速读

该论文介绍了一种在输入机械臂的图像中加入一张扰动图像来干扰机械臂的运动，扰动图像可能占据总图像面积的5%，但是却会是的机械臂成功完成任务的概率下降最高可达98%。流程如下：首先介绍一下选用的机械臂的运动逻辑：其中P（x,y,z）表示沿着xyz轴的相对位置变化，R（x,y,z）表示沿着xyz轴旋转的相对变化，gripper表示最前端的抓手是否夹住。

2025-01-26 11:21:09 1060

原创 DeTeCtive论文极速读

一篇NeurIPS2024，该论文使用对比学习的方法来完成AI生成文本的检测任务。方法的主要设计如图：（a）在训练阶段，通过一个encoder编码器将文本转化成为一列特征，不同生成源产生的文本经过模型之后得到的特征在余弦相似度上应满足假设：余弦相似度从高到低：一个LLM模型与该LLM模型本身一个LLM模型与相同公司推出的同一类LLM一个LLM模型与相同公司推出的LLM一个LLM模型与人类其中x=1表示文本由人类生成，x=0表示文本由模型生成。

2024-12-28 19:49:50 920

原创 Text Fluoroscopy论文极速读

为了找出最不一样的几层，中间层的输出都是为中间维度的，比如GPT2中使用到的768，于是作者将最后一层的768-50257的线性层应用到每一层中间的encoder上面，计算likelihood之后计算与第一层和最后一层的KL Divergence，选出数值最大的M层，将其中的输出用于分类。作者提到，既然以前的Train-Based方法经常使用第一层的输出，以及最后一层的输出，那么可以将第一层视为模型对于词语，也即word的学习，最后一层看作是对完整的句子的学习。对选择的M层使用线性层，二分类训练。

2024-12-27 00:48:23 377

原创 Revise-Detect论文极速读

给定一段文本，1、将这段文本加上提示词“改写下面这段文本”，2、将添加提示词之后的文本送入GhatGPT来改写得到修改后文本，3、将修改前后的文本计算相似度，4、计算出的相似度与阈值进行打分，得到最终评判结果。文本相似度的计算方法有很多种：BLEU score、ROUGE score、BERTScore、BARTScore。作者的基本假设为：与人类编写的文本相比，LLM对AI生成文本的改动会更小，因为AI生成的文本本身就十分符合高概率分布，因此作者提出“用LLM打败LLM自己”。

2024-12-25 14:24:08 407

原创 Imitate Before Detect论文极速读

括号内左侧部分分母为训练之前模型对AI生成文本输出的概率分布，分子是训练后模型对AI生成文本输出的概率分布；右侧分母为训练前模型对人类文本输出的概率分布，分子为训练后模型对人类文本输出的概率分布。文章首先提出虽然ast-detect-gpt的方法在区分纯AI生成的文本方面已经达到了很高的精度，但是如果对LLM的任务目标为改写人类生成的文本时这种方法精度就会有明显下降。对文本打分仍然使用fast-detect-gpt中的方法，该文章是对打分模型进行了SPO优化训练。训练之后在文章中便可表示出良好的效果。

2024-12-24 20:59:04 477

原创 DALD论文极速读

DALD这篇文章指出：fast-detect-gpt的方法在黑盒测试的过程中面对目前先进的模型比如GPT4，claude3.5等由于打分模型与生成模型内部概率分布不一致，导致检测精度的下降。作者由此提出将打分模型与生成模型进行概率分布的对齐（align），也就是使用生成模型生成的文本对打分模型进行LORA微调之后再来打分，以此得到了更好的效果。该论文是在fast-detect-gpt方法上的改动，fast-detect-gpt的方法可以参见我的这篇。该篇论文被NeurIPS2024收录。

2024-12-22 14:55:35 674

原创 GLIMPSE论文极速读

该文章提供了一种在fast-detect-gpt检测方法基础上针对GPT4等闭源模型进行的改进。关于fast-detect-gpt检测方法可见。

2024-12-18 21:51:42 546

原创从代码解析Spotting LLMs With Binoculars: Zero-Shot Detection of Machine-Generated Text

本文是对一篇ICML2024文章进行计算过程的讲解该文章主要提供了一种zero-shot的AIGC文本检测方法，在文章中所说，使用较少的计算量就起到了不错的效果。

2024-12-09 17:25:19 1130

原创通过代码解析DetectLLM

本文使用中的detect_llm.py对文章的计算过程进行说明DetectLLM：一种zero-shot检测AIGC文本的方法该方法有两种评测方法LRR和NPR，其中LRR速度更快但是精确度比NPR低，NPR精确度更高但是由于要使用扰动文本，扰动文本需要生成因此速度较慢。

2024-12-09 15:37:42 562

原创从代码解析DetectGPT

本文是使用仓库中detect_gpt.py文件中的代码对文章进行计算过程的讲解DetectGPT：斯坦福大学发表的一种zero-shot的AIGC检测方法通过论文中的两张图便可对计算过程有一个大概的了解文章指出，收到一段文本x，在对文本进行微小修改之后得到的新文本x1，x2…有如下关系：若文本来自AI，则新文本的log likelihood比源文本的log likelihood更低；

2024-12-09 14:48:54 1051

原创通过代码解析DNA-GPT

DNA-GPT一种zero-shot的AIGC文本检测方法

2024-12-08 16:14:50 1810

原创 fast-detect-gpt原理示例讲解

直接从代码来讲计算逻辑，给出代码中计算方式。一句话概括就是使用模型对文本进行打分，根据文本最终得到的分数判断文本是人类生成还是AI生成，下面来看详细的打分方式：首先加载两个模型：scoring_model和reference_model（可以使用一个模型同时作为scoring_model和reference_model）

2024-12-07 17:56:35 2187 1