如何判断文件是文本还是二进制

今天潜水时看到有人询问判别文件内容是否为文本的方法,什么回答都有,主要是:

  1. 看后缀:这个比较弱,不要说在*nix下通常都不用后缀,就算是Win下,一方面有很多不知名的后缀;另一方面,后缀是可以随便改的,叫txt的可能是个txt,也可能是个马。
  2. 写成文本,然后和原文件比较大小。这个靠谱,就是代码怎么看怎么不好看。
  3. 判断是否存在控制字符:这个也靠谱,但是难度比较大,因为有些Unicode文件在开头放了控制字符,所以必须处理这种特殊情况。(我记得有些编辑器就是这样判断文件是否为二进制的)

这些答案都算靠谱,也有不靠谱的。居然有人回答:文本终究也是二进制的,所以你没办法判断!NND,这就好像说:Women 本质上就是 Men(人),所以你没法判断 Women 和 Men (男人)鄙视

言归正传,除了以上的三种方法外,如果要求不是那么严格,可以用文件的mime type来进行判断,以下的Groovy代码虽然不太直观,但是胜在短小:

def isText = { it?.isFile() && it.toURI().toURL().openConnection().contentType?.startsWith('text') }
在Java下道理是一样的,先获得URL对象,然后打开连接,获取内容类型……只不过多写几行罢了。





评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值