Magika：谷歌刚开源的高效文件类型识别工具

最新推荐文章于 2025-11-23 03:34:38 发布

原创最新推荐文章于 2025-11-23 03:34:38 发布 · 3.1k 阅读

CC 4.0 BY-SA版权

文章标签：

173 篇文章

订阅专栏

8 篇文章

订阅专栏

Google新开源的Magika是一款采用深度学习的文件类型识别工具，能快速准确识别文件，弥补传统方法的不足。它通过理解文件内容而非仅依赖扩展名或MagicNumber，提高了安全性并广泛应用于Google内部系统，提升了50%的文件识别准确率。

Magika Github地址：https://github.com/google/magika

近日，google开源了一款文件类型识别工具，霸榜了Github头条，而且star一直在上升（目前已经有4.1k了），它就是 Magika。

在这里插入图片描述

也许很多人会说，这不是一款很普通的工具吗？有啥特别的。其实我们都小看它了，它采用了一种 定制高度优化的深度学习模型，能在几毫秒内精确识别文件类型，并弥补了传统文件识别方法的局限，提供了更准确和高效的解决方案，通过标准的命令行pip install magika命令就能安装。

也许这么说，还不能提现的它的特别之处，本文演示操作下。

首先新建一个test.txt文件，然后在里面随便写入几行文本，接着修改test.txt文件的后缀名为png格式：

在这里插入图片描述

从上图可以看到连mac操作系统都把test.png识别为图片类型了，实际为txt类型，我们也可以在线去识别：

在这里插入图片描述

可以知道，通过传统的方式，无法真实地识别到文件的实际类型，那么在线使用Magika，会不会有不一样的结果呢？在线地址：https://google.github.io/magika，例如：
在这里插入图片描述
可以看到Magika把文件识别为真实的类型，为txt而不是png。

以前的工具主要是通过查看文件的扩展名，或者文件的"magic number"（这是文件开头的一段特定数字，用来标识文件类型）来确定文件的类型，这种方法有时候可能会出错。比如，如果文件被恶意修改，或者"magic number"被错误的定义，那么文件类型识别就可能发生错误。

而Magika采用的是 基于深度学习的方法，它会去理解文件的整体内容，而不仅仅是文件的开始部分，这就意味着Magika能够更准确地识别复杂或者模糊的文件类型，减轻了人工介入的需要，提高了识别的准确性和效率。

可以知道Magika相对于其他类似的软件，有如下优势：

下面是一张官网贴出的Magika对比其它软件的性能比分图：

在这里插入图片描述

在Google内部，Magika目前已被大规模地用来提高Google用户的安全性，通过将Gmail、Drive和Safe Browsing文件路由到正确的安全和内容策略扫描器，Magika比以前依赖于手工规则的系统提高了50%的文件类型识别的准确率。