360回扫样本存储系统Xstore的设计与实践

本文介绍了360核心安全高级服务端开发工程师关于基于Hadoop的回扫样本存储系统XStore的设计与实践。XStore旨在满足样本实时上传、检测服务和回溯扫描需求,主要存储安卓APK样本,特点是大量、不常更新,且要求高读取性能和备份能力。系统采用HDFS+HBase技术栈,通过文件合并和头文件信息存储实现高效存取。目前,Xstore已存储约10亿个、21PB的样本文件,服务于多个在线和离线业务。
摘要由CSDN通过智能技术生成

奇技指南

【360互联网技术训练营第16期——大数据与微服务之路】上,360核心安全高级服务端开发工程师高吴林涧分享了《基于Hadoop的回扫样本存储系统XStore的设计与实践》。本文是具体内容。

01

为何我们需要一个样本存储系统

1

核心安全流程概述

在360用户安全中,云查杀占着很大的比重,除了贡献大量的查杀结果之外,也节省了用户的计算资源。云查杀的大体流程是:

  1. 如果用户检测一个尚未被收录的样本文件(pc文件,安卓apk软件包等),那么用户会将样本上传至样本存储系统, 然后检测大流程会使用多类的扫描器,对样本文件进行查杀,返回查杀结果,并记录

  2. 如果用户检测一个已经收录的样本文件,那么直接从云查杀中返回这个样本文件的黑白情况。

以上流程大致可以表示为下图:

640?wx_fmt=png

2

存储系统主要用途

在这里,我们以安卓手机软件(.apk)为例。新收集的apk软件 会直接落地在存储系统中。存储系统主要为了满足3个使用需求:

  1. APK样本实时上传收集

  2. 对APK样本实时检测服务提供样本文件下载服务

  3. 一旦样本检测的扫描器/模型/规则发生变化, 则对已收集的样本进行回溯扫描

640?wx_fmt=png

基于这样的功能性需求,我们设计并开发了样本存储系统Xstore。

3

目标存储文件的特征

在设计具体的系统架构之前,我们有必要对这个样本文件存储系统所要存储的目标对象做一个特征的分析,以便更好地设计出贴合实际需求的架构。

依旧以占比较大、较典型的apk样本作为例子。我们待存储的apk样本有如下特征:

  • 大小:单个文件平均大小50M,波动在10k至3G之间,总容量为10-100PB这个量级

  • 数量总量在10-100亿级别,每日增量为百万级别

  • 写入和读取为主,几乎不更新,无物理删除

  • 读取方式为随机+顺序读取

  • 高价值,要求提供容灾和备份方法

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值