- 博客(107)
- 收藏
- 关注
原创 远程服务器跑实验必备指令汇总:显卡监控、Tmux 挂起与进程管理
网络波动:SSH 连接一断,跑了半天的实验直接挂掉。资源抢占:不知道显卡(GPU)有没有空闲,或者 CPU 被谁占满了。进程残留:代码停了,但显存没释放,或者留下一堆僵尸进程。本文总结了最常用的指令,助你优雅地管理远程实验。在远程服务器工作的最佳实践流程:SSH 登录。进入虚拟终端。确认显卡空闲。。Ctrl+b->d挂起,断开 SSH。随时回来查看。实验结束或卡死时,使用fuser或kill -9清理残余进程。希望这篇总结能帮大家少踩坑,实验顺利,收敛如风!
2025-12-20 15:01:37
459
原创 超详细!VSCode 远程连接 SSH 服务器教程(2025 最新版)
VSCode 连接 SSH 服务器的核心是「安装 Remote - SSH 插件 + 配置连接信息 + 验证登录」,无需纠结「远程资源管理器」图标,通过「欢迎页 Connect to...」或「命令面板」即可完成所有操作。相比纯命令行,VSCode 支持可视化编辑、插件扩展、断点调试等功能,能大幅提升远程开发 / 运维效率。若你是 Windows 7 等老系统,需先安装 OpenSSH 客户端(或 PuTTY),核心配置逻辑与上述一致,仅需适配本地 SSH 环境即可。
2025-12-09 15:23:16
4243
2
原创 CodeGuarder 深度问答 (P2):为什么要这样设计?(Broken Instructions / Root Causes / Prompt 结构 / 安全机制)
CodeGuarder 的设计不是偶然的,它的每一步都源自深刻的安全工程经验:拆任务 → 才能精准定位漏洞语义检索 → 才能得到正确安全知识子任务安全注入 → 才能防御每一个风险点融合参考代码 → 才能测试鲁棒性层级排序 → 才能提高模型关注度完整结构 Prompt → 才能让模型稳定、安全生成这种结构比 RAG 强得多,因为它是「面向漏洞根因而非代码表面」的 Prompt。如果你愿意,我还能帮你:写上一篇“CodeGuarder Root Cause 知识库构建”
2025-11-19 14:28:50
805
原创 CodeGuarder 深度问答 (P1):Motivation + Mechanism + Implementation
一句话:CodeGuarder 用“任务分解 + 语义检索 + 安全知识注入”强化了 LLM 的代码生成安全,是目前最有效的 Prompt-Level 安全增强方法。核心优势包括:不依赖模型参数,通用性强安全知识可持续扩展针对子任务,专注于每个风险点结构化 Prompt 让模型更容易理解适用于:代码生成API 调用低代码平台安全自动修复企业级 AI 开发。
2025-11-19 14:27:08
660
原创 CodeGuarder 安全增强 Prompt 结构
这个 Prompt 结构是 CodeGuarder 安全增强的核心成果:它把“功能需求 + 子任务拆解 + 安全知识检索 + 参考示例 + 安全约束”整合成一个可直接喂给 LLM 的结构,形成的完整落地实现。
2025-11-19 14:21:22
655
原创 CodeGuarder Broken Instruction
vector_db 里保存了 N 条「(root_cause_json_string, embedding_vector)」,支持你后面用 similarity_search(query) 来查最接近的 root_cause。4)for 每个子任务 qᵢ,用 find_root_causes 在 vector_db 里检索 top-5 条最相似的 root_cause → 组成 (qᵢ, [top1..top5]) → 加进 cur_sim_RCs。
2025-11-19 13:57:20
435
原创 CodeGuarder 深入理解教程
最近在实现 CodeGuarder 的训练与推理 pipeline 时,我发现网上几乎找不到“论文结构是如何在代码中落地的”这种类型的教程。root_causes(安全知识库 S)broken_instructions(子任务分解 Q → qᵢ)security knowledge(S′_{qᵢ} 经过向量检索后插入 prompt 的知识)很多人对它们的作用都模糊不清,只知道“这是用来增强安全性的”,但不知道为什么、从哪里来、怎么用。本文的目的就是:👉从论文结构 → 数学公式 → 代码实现。
2025-11-19 13:29:29
723
原创 从零开始在 AutoDL 上部署 :GPU 环境 + SSH + PyCharm 全流程详解
操作意义开机启动远程 GPU 资源SSH 登录连接远程系统命令行输入密码身份验证提示符出现登录成功,开始控制服务器到这里,你已经完整掌握:AutoDL 云端 GPU 实例的创建与连接原理SSH 登录与远程操作的机制。
2025-11-11 11:10:02
667
原创 Ollama Cloud 线上模型免费调用教程(2025 最新版)
模式优点缺点本地 Ollama离线、免费、隐私占用显存、下载慢即开即用、无显存占用、接口统一需网络连接、有请求速率限制。
2025-11-08 20:27:17
1855
原创 指令微调(Instruction Tuning)
指令微调的核心在于通过精细调整模型的参数,使模型能够根据自然语言指令进行有效的任务执行。通过数据集构建,我们给模型提供了各种任务的指令和对应的响应。在微调训练阶段,模型根据这些指令进行优化,使其生成更加符合要求的输出。最终,模型优化通过调整模型的所有参数,使其在处理指令时具有更高的精确度和泛化能力。通过指令微调,模型不单纯依赖于预训练的知识,而是更有能力根据具体的指令任务进行推理和生成。
2025-11-06 22:39:28
541
原创 在 Ubuntu 上安装 Ollama 并通过 Open WebUI 运行本地大语言模型
通过上述步骤,你已经成功在 Ubuntu 上安装并运行了 Ollama 与 Open WebUI。现在,你可以在本地机器上享受与大语言模型的交互体验,无需依赖外部云端服务。通过 Docker 容器,你还可以方便地管理和切换不同的模型,提升工作效率。希望这篇教程能帮助你更好地理解如何在本地运行大语言模型,并通过图形化界面进行管理。如果你有任何问题,欢迎在评论区留言!
2025-11-06 22:12:48
624
原创 Give LLMs a Security Course 论文方法细读
论文中通过S、K、V数据库的构建,利用不同类型的知识库来增强系统的安全性。S(安全知识库):提供安全漏洞的根因和修复模式,帮助生成安全代码。K(功能代码库):提供符合功能需求的代码示例。V(漏洞代码库):用于模拟攻击,评估系统在遭遇投毒攻击时的表现。通过这些知识库的检索机制,RAG在增强代码生成安全性的同时,确保生成代码的功能性和安全性不被妥协。
2025-11-05 16:20:22
505
原创 “自然语言描述 → 代码生成 → 漏洞标注”相关数据集
以下是更多与“自然语言描述 → 代码生成 → 漏洞标注”相关的现成数据集和资源,涵盖了多种编程语言和漏洞类型,适用于你的研究任务。它们可以为“生成代码后的漏洞检测”和“基于自然语言需求的代码评估”提供丰富的样本和基准。
2025-11-05 16:19:11
454
原创 CyberSecEval 2
数据集在 Hugging Face 上可访问:数据集简介该数据集名为,是一个广泛的网络安全评估数据集,专门用于对大语言模型(LLM)进行网络安全能力的评估。。根据页面上的数据,Python:351 条记录PHP:162 条记录JavaScript:249 条记录Rust:204 条记录Java:229 条记录C++:259 条记录C:227 条记录C#:235 条记录这些数据记录主要包含关于不同编程语言中的潜在安全漏洞、修复措施和与之相关的代码片段。
2025-11-05 15:13:30
691
原创 Give LLMs a Security Course 论文结构速览
实验结果显示,在多种模型、多语言环境下,CodeGuarder 显著提升了“安全率 (SR)”而且功能正确性几乎不受影响。在线:对用户生成请求分解为子任务,检索与子任务相关的安全知识,进行重排序与过滤,然后将这些知识注入提示 (prompt) 中,指导 LLM 生成“既功能正确又安全”的代码。作者讨论了方法的优点、适用范围、限制(例如安全知识库规模、检索效率、子任务分解的挑战)以及未来方向,比如扩展更多语言、对抗性攻击防御、知识库动态更新等。当前方法在知识库安全、中毒场景防御、跨语言泛化等方面仍存在缺口。
2025-11-05 12:44:12
269
原创 Tomcat 新手避坑指南:环境配置 + 启动问题 + 乱码解决全流程
很多新手在安装 Tomcat 后,常会遇到「启动闪退」「日志乱码」「环境变量报错」等问题。本文结合实际操作场景,从 JDK 依赖、环境变量配置、启动故障排查到日志编码优化,一步步带你搞定 Tomcat 全流程配置,适用于 Tomcat 9 及相近版本,新手可直接照搬操作!Tomcat 配置的核心是「环境变量正确配置」「编码匹配系统」「端口无冲突」。新手只需按本文步骤,先搞定 JDK 与JAVA_HOME,再排查闪退和乱码问题,就能顺利启动 Tomcat。
2025-11-02 11:04:26
788
原创 PrimeVul
PrimeVul 数据集结合了创新的标签技术和高质量的评估机制,提供了约7000个易受攻击函数和约229000个正常函数,涵盖了140+种漏洞类型。该数据集不仅注重漏洞的准确标记,还通过最小化数据污染,确保了研究者能够得到可靠的数据支持。PrimeVul 的核心目标是帮助开发更加高效和准确的漏洞检测模型,为学术界和工业界的漏洞检测研究提供新的思路和工具。PrimeVul 数据集包含了详细的元数据,以帮助研究者进行更深入的分析。字段描述idx样本的唯一标识符project项目名称,指示该漏洞所在的代码库。
2025-10-29 15:25:18
878
原创 MoreFixes
MoreFixes:大规模的CVE修复提交数据集MoreFixes 数据集是通过增强的仓库发现方法,从多个开源项目中收集的大规模CVE(公共漏洞和暴露)修复数据集。它包含来自 7,238 个 GitHub 项目 的 29,203 个唯一 CVE,这些 CVE 修复涉及 35,276 次唯一提交 和 39,931 个修复补丁文件。这些数据为漏洞检测和软件安全研究提供了强大的支持,尤其是在软件修复过程的分析和自动化修复生成方面。该数据集提供了一个丰富的结构化数据集,包含与每个 CVE 相关的修复提交的详细信息,
2025-10-29 13:34:46
872
原创 RAG 核心流程
这是 RAG 的 “信息筛选” 环节,核心是从知识库中找到与用户问题最相关的文本块。这是 RAG 的 “知识库搭建” 环节,目的是让计算机能快速找到文档中的关键信息。四大阶段,每个阶段都有明确的目标和关键操作,对应你代码中的核心功能模块。RAG 的完整流程可分为。
2025-10-15 16:11:24
958
原创 工具调用流程三元组数据集构建
旨在构建 “自然语言需求 - 工具调用流程 - 结构化 JSON” 的三元组关联数据,支撑大语言模型(LLM)学习 “从用户自然语言需求到工具调用流程规划及结构化执行” 的能力,为办公自动化、智能任务调度等场景的 LLM 应用提供数据基础。数据集采用 JSON Lines(.jsonl) 格式存储,单条样本为一个独立的 JSON 对象,核心字段如下(以样本。工具调用流程的结构化表示(机器可直接解析执行,含步骤、工具、节点类型等)基于需求拆解的工具调用流程(自然语言形式,包含步骤与工具名称)
2025-10-12 16:51:01
835
原创 《Local_Pdf_Chat_RAG 深度学习笔记:PDF 本地化对话的 RAG 原理与实践》
在处理本地 PDF 文档的智能对话需求时,很多人会面临 “云端依赖泄露隐私”“开源项目部署门槛高” 的问题 —— 而 GitHub 上的 Local_Pdf_Chat_RAG 项目,恰好以 “本地化部署 + RAG 技术” 为核心,解决了 PDF 文档的高效检索与自然语言对话难题。近期我系统学习了这个项目,从环境搭建、代码核心模块拆解,到实际场景测试与调优,踩过不少新手常见的坑,也总结了一套可复用的实践经验。
2025-09-30 20:27:53
479
原创 CopyBreakRAG 攻击步骤与方法概括
CopyBreakRAG 是针对 RAG 应用知识库的,无需访问 RAG 内部架构(如嵌入模型、参数),仅通过 API 交互,即可逐字提取 70% 以上知识库内容,核心是 “反馈驱动的探索 - 利用动态切换”。
2025-09-24 14:50:11
381
原创 《Feedback-Guided Extraction of Knowledge Base from Retrieval-Augmented LLM Applications》论文学习指南
技术创新:提出首个高覆盖率的 RAG 黑盒知识库提取攻击,解决传统方法 “覆盖低、需白盒” 的问题;实践价值:在商用平台验证攻击有效性,揭示 RAG 知识产权保护的紧迫性;防御启示:指出 RAG 安全的关键薄弱点(如固定格式、多片段返回),为后续防御研究提供方向。
2025-09-24 14:48:39
1092
原创 RACG poison 攻击
信任 “上传的代码来源可靠”;信任 “语义相似的代码就是相关且安全的”;信任 “检索到的上下文可以直接参考”。攻击者的核心目标,就是打破这些信任假设 —— 用伪装的恶意代码污染知识库,用检索机制让其被召回,再利用 LLM 对上下文的信任生成有害代码。这也是为什么防御时需要在 “准入→检索→生成” 全流程加验证(如之前提到的静态检测、沙箱验证),本质上是 “给信任链加锁”。
2025-09-24 13:39:21
576
原创 GRE 五段式议论文写作模板(中文版架构)
重申立场:总之,尽管 [对立观点] 在一定程度上有其道理,但整体来看,[个人立场] 更加合理。概括论据:这一点在 [主体论证 1 概括] 和 [主体论证 2 概括] 中得到了有力体现。观点对比:有人认为 [对立观点],而另一些人则坚持 [支持观点]。转折限制:然而,这种观点存在明显局限,因为它忽视了 [关键理由]。回扣:因此,这一现象充分证明了 [呼应中心论点]。有限度论证:例如,[简单说明原因或例子]。回扣:所以,再次印证了 [中心论点]。分论点:首先,[分论点 1]。分论点:其次,[分论点 2]。
2025-09-19 18:13:27
464
原创 GRE作文高效结构模板(凝练版)
3. 中心论点(1句):明确表达个人立场(可采用让步式表述)2. 有限度论证(1-2句):说明为何合理。2. 观点对比(1-2句):呈现对立立场。1. 话题引入(1句):概括讨论现象。3. 转折限制(1句):指出其局限性。2. 解释:说明分论点成立的理由。1. 重申立场:换言重申中心论点。1. 分论点:明确支持中心论点。1. 承认对方合理处(1句)2. 论证总结:概括主体论据。4. 回扣:联系回中心论点。**第三、四段:主体段****第一段:引言段****第二段:让步段****第五段:结论段**
2025-09-19 18:07:49
179
原创 Tempo
本文首次提出用“代码自然性”视角检测投毒。是一个高效、轻量、稳定的方法,能够大幅提升神经代码模型的数据安全性。实验表明,它在 20 个场景下都优于现有方法。
2025-09-17 16:15:01
604
原创 旅行商问题(TSP, Traveling Salesman Problem)的动态规划解法
d[i][S]i:当前停留在城市i;S:已访问城市的集合,用二进制表示(称为状态压缩d[i][S]:从城市0出发,经过集合S中所有城市,最后到达i的最短路径长度。步骤内容状态压缩用二进制表示城市访问状态状态转移最后一步从某个k到i,取最小空间复杂度O(n * 2^n)时间复杂度如果你需要我画一张状态转移图或帮你手推一个小例子(比如 4 城市的完整转移表),我也可以继续帮你完成!要不要画个图?🎨。
2025-06-20 03:12:33
317
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅