看过《文件类型识别的实现思路》文章的朋友应该知道,如果我们通过libmagic返回的描述信息来进行文件识别,有一个麻烦的地方是,我们无法获取到一个完整的文件描述信息列表,因为magic.mgc是二进制文件,我们看不到。
所以我们这里采用一种变通的办法,就是通过文件资源的mime来判断,mime的文件可以在系统的/etc/mime.types中找到,内容示例如下:
比如想识别一个文件是不是jpg,通过查看mime.types文件,我们知道jpg对应的mime是image/jpeg,那么我们可以将文件通过libmagic识别,返回的mime与image/jpeg进行比较,这个比较是字符串的比较,可以用多模AC算法或者是哈希算法,就可以很容易的知道一个文件是不是jpg文件了。
这里还要说一下, 《