本文解决了什么问题?
1.将神经网络应用于文件片段分类的新方法,首先,片段的各个位直接用作模型输入,使用这个或任何其他无损特征表示法都没有找到以前的工作。
2.文件片段分类研究的一个主要思想流派是,分类器应该是专门化的,并且应该考虑可能的最具体的模式,以便在准确性和速度方面最大限度地提高性能。这在很大程度上是基于特定应用的需要,过去构造的广义模型的性能不理想。然而,过去的模型都不是真正的可普遍推广的,这可能会对它们的性能产生负面影响,也代表了对其他需要推广模型的应用的未满足需求。
本文运用了什么方法?
资源:GovDocs1语料库
工具:Python3.2 keras theano
1.数据集的提取:不同类型提取相同数量的文件,片段大小为512字节(最小处理单元)
2.特征表示:核心部分
每个片段有512字节,每个字节有8位,每个位有2个特性(1.2),每个片段有819个特性。
3.模型:
前馈:平面格式提供给前馈网络,包括8192个向量
递归:每步一个字节(16个特征),共512步
卷积:512*16矩阵
4.模型调优:手动参数