文献阅读
文章平均质量分 93
真·skysys
萌即正义 ^ω^ ヾ(o◕∀◕)ノヾ ヽ(≧□≦)ノ ヾ(・ω・`。)
展开
-
USENIX Security 安全顶会文献阅读:《ALASTOR : Reconstructing the Provenance of Serverless Intrusions》
ALASTOR 是一个基于溯源的审计框架(provenance-based auditing framework),用于精确跟踪无服务器应用中的可疑事件。无服务器计算将传统应用分解成短暂的、可重入的函数,使攻击者能够在合法工作流中隐藏其活动,并通过滥用暖容器重用策略破坏因果路径来阻止根因分析。ALASTOR 记录函数活动,在系统和应用层捕获每个函数实例的行为全貌,然后将来自不同函数的溯源信息在无服务器平台的中央仓库聚合起来,生成复杂函数工作流的全局数据溯源图。原创 2024-03-13 22:33:45 · 1049 阅读 · 2 评论 -
快手 KDD 2023 入选论文解读 # Graph Contrastive Learning with Generative Adversarial Network
问题:现有的 GCL 方法没有考虑图的分布,导致对于潜在边(unseen edges)的缺失考虑,利用这个信息在实验中可以提高 GCL 的性能。方法:本文利用 GAN 来学习图分布,提高数据增强的能力,然后联合训练 graph GAN 和 GCL 模型,即提出的 GACN 模型。GACN 利用 generator 生成的 views 并以 graph contrastive loss 和 bayesian personalized ranking loss 这两个自监督损失来训练 GNN encoder。原创 2023-08-06 01:50:57 · 933 阅读 · 3 评论 -
文献阅读笔记 # SimCSE: Simple Contrastive Learning of Sentence Embeddings
SimCSE:Sentence Embedding + 对比学习原创 2023-07-09 14:24:19 · 683 阅读 · 0 评论 -
USENIX Security 23 论文解读 # VulChecker: Graph-based Vulnerability Localization in Source Code
基于AI实现的SAST实现漏洞检测、分类和精确定位原创 2023-07-09 01:06:06 · 1301 阅读 · 0 评论 -
安全研究 # Third-Party Library Dependency for Large-Scale SCA in the C/C++ Ecosystem: How Far Are We?
针对 C/C++ 生态系统的现有的软件成分分析(SCA)技术原创 2023-06-28 12:54:44 · 615 阅读 · 1 评论 -
略读 # SourcererCC: Scaling Code Clone Detection to Big Code
代码克隆检测在海量源码的场景下的解决方案原创 2023-06-27 16:50:32 · 561 阅读 · 0 评论 -
文献阅读笔记 # 面向大规模多版本软件系统的代码克隆检测加速技术
很多代码克隆检测方法主要针对软件系统的单个版本进行检测,在多版本情况下效率较低。本文提出一种针对多版本软件系统的克隆检测加速技术,可以快速得到每个版本的克隆情况。通过版本间方法映射技术为不同版本代码内容高度相似的同一方法构建方法版本组,选取每个方法版本组中最早的版本作为样本方法,样本方法的集合构成历史映像,对历史映像进行克隆检测,同时建立样本方法和方法版本组间的方法索引。根据历史映像克隆检测结果及方法索引恢复原始的全量克隆关系。结论:与文本对比方法提速4倍。原创 2023-02-28 10:34:47 · 730 阅读 · 0 评论 -
文献阅读笔记 # 开源软件供应链安全研究综述
本文总结了开源软件供应链的关键环节, 基于近10年的攻击事件总结了开源软件供应链的威胁模型和安全趋势, 并通过对现有安全研究成果的调研分析, 从风险识别和加固防御两个方面总结了开源软件供应链安全的研究现状, 最后对开源软件供应链安全所面临的挑战和未来研究方向进行了展望和总结。原创 2023-02-23 14:37:52 · 1681 阅读 · 0 评论 -
文献阅读笔记 # 区块链在软件供应链管理中的应用探索
探索用区块链技术保障软件供应链安全。原创 2023-02-21 14:12:53 · 420 阅读 · 0 评论 -
文献阅读笔记 # GraphCodeBERT: Pre-training Code Representations with Data Flow
之前的模型(eg. CodeBERT)把代码当作 tokens sequence,这显然忽略了代码结构信息,而这包含了关键的代码语义信息,有助于增强代码理解过程。本文提出的 GraphCodeBERT 是一个考虑了代码结构的面向编程语言的预训练模型。本文没有采用抽象语法树(AST)这样的代码语法结构,而是在预训练阶段使用数据流,这是一种编码变量之间 “” 关系的代码语义结构。Data Flow 结构不复杂,不会带来不必要的 AST 的深层结构,这个性质让模型更高效。原创 2023-02-13 02:10:43 · 888 阅读 · 1 评论 -
文献阅读笔记 # CodeBERT: A Pre-Trained Model for Programming and Natural Languages
本文提出用于程序语言(PL)和自然语言(NL)的双模态预训练模型 CodeBERT。CodeBERT 学习支持下游任务(如: natural language code search, code documentation generation)的通用表示,然后基于混合的目标函数对其进行训练,该目标函数包含预训练任务和(detect plausible alternatives sampled from generators) 任务。原创 2023-02-11 03:05:02 · 1184 阅读 · 0 评论 -
文献阅读笔记 # Making Monolingual Sentence Embeddings Multilingual using Knowledge Distillation
本文提出了一种简单有效的方法来扩展现有的 sentence embedding 模型到新的语言。这使得从以前的单语言(monolingual)模型创建多语言(multilingual)版本成为可能。翻译后的句子应该被映射到与原句子在向量空间中相同的位置。我们使用原始(单语言)模型为源语言生成句嵌入,然后训练一个新的语句翻译系统来模仿(minic)原始模型。原创 2023-02-03 02:32:21 · 481 阅读 · 0 评论 -
文献阅读笔记 # Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks
BERT(2018) 和 RoBERTa(2019) 在 sentence-pair regression 类任务(如,semantic textual similarity, STS, 语义文本相似度任务)中取得了 SOTA,但计算效率低下,因为 BERT 的构造使其不适合 semantic similarity search 也不适合无监督任务,如聚类。10000 sentences 找到最相似的 pair 需要约5千万次BERT推理(单张V100 ~65hours)原创 2023-01-28 16:12:11 · 1021 阅读 · 0 评论 -
安全研究 # Neural Network-based Graph Embedding for Cross-Platform Binary Code Similarity Detection
跨平台二进制代码相似度检测原创 2022-12-22 16:25:54 · 1620 阅读 · 2 评论 -
安全研究 # Order Matters: Semantic-Aware Neural Networks for Binary Code Similarity Detection
图7中是4个控制流图的block(左上,左下,右上,右下),我们使用K-means对预训练后的block embedding进行分类(K-means的类别数定为4),不同的类别颜色不同。为什么使用CNN模型呢?这三个图非常相似,每个图中都有一个三角形特征(图a的节点123,图b的节点234,图c的节点134),这个特征体现在它们的邻接矩阵中。首先对比图a和图b,与图a相比,图b加入了节点1,节点顺序依次后移一位,但三角形特征中三个节点的顺序还是连续的,这个特征在邻接矩阵中可以看到,这个1-1-0-1的。原创 2022-12-14 18:17:55 · 660 阅读 · 0 评论 -
安全研究 # 二进制代码相似性检测综述
本文参考:[1]方磊,武泽慧,魏强.二进制代码相似性检测技术综述[J].计算机科学,2021,48(05):1-8.(信息工程大学数学工程与先进计算国家重点实验室, 国家重点研发课题,北大核心)代码相似性检测常用于代码预测、知识产权保护和漏洞搜索等领域,可分为源代码相似性检测和二进制代码相似性检测。软件的源代码通常难以获得,因此针对二进制代码的相似性检测技术能够适用的场景更加广泛。根据关注的代码信息的不同,当前的二进制代码相似性检测技术分为4类:基于文本、基于属性度量、基于程序逻辑、基于语义的检测技术。原创 2022-12-04 00:04:08 · 3763 阅读 · 0 评论 -
文献阅读笔记 # Space/Aerial-Assisted Computing Offloading for IoT Applications: A Learning-Based Approach
这次分享的是一篇 2019 年发表在《IEEE JOURNAL ON SELECTED AREAS IN COMMUNICATIONS》的文章 SCI 1区,通信 Top 期刊,IF=9.144Space/Aerial-Assisted Computing Offloading for IoT Applications: A Learning-Based Approach物联网应用的空间计算卸载:基于学习的方法Abstract物联网的计算卸载是一个挑战性问题(尤其是在边缘或云基础设施不可用的偏远地区原创 2022-03-17 02:06:01 · 7834 阅读 · 0 评论 -
基于多智能体深度强化学习的空地协同通信系统轨迹设计与访问控制
所属子方向:UAV assisted communication名词注释coordinated:协调、协同base stations 基站,公用移动通信基站,是移动设备接入互联网的接口设备,是指在一定的无线电覆盖区中,通过移动通信交换中心,与移动电话终端之间进行信息传递的无线电收发信电台。UAV-BS:无人机基站cooperative-competitive game:合作竞争博弈throughput :吞吐量,每秒比特数 bps,bits per secondDeterminis原创 2021-11-21 20:18:19 · 3683 阅读 · 2 评论 -
文献阅读笔记 # Bitcoin: A Peer-to-Peer Electronic Cash System
这篇文章是Bitcoin的原始论文。需要细品。Bitcoin: A Peer-to-Peer Electronic Cash System 翻译中本聪邮件译文和解读 1Bitcoin: A Peer-to-Peer Electronic Cash System比特币:一种点对点电子现金系统Author:Satoshi Nakamoto (中本聪)比特币协议及其相关软件Bitcoin-Qt的创造者,但真实身份未知。这一点非常有趣https://baike.baidu.com/i原创 2022-02-21 01:36:28 · 962 阅读 · 0 评论