text文件编码的检测

做了半年的专职程序员,现在又回到业余,又有时间来写一些小博客了。

相信很多程序员都尝试过文件编码的检测,我搜索了一下网络,但没有找到一个java library来处理这个事情。于是尝试了一下,从昨天(星期天早上开始),在oschina的码云上开了一个项目。 https://git.oschina.net/jianglibo/char-encode-detector

项目介绍:

1、作为一个小功能的库,最好不要有依赖,java compile level 选的是1.6,从guava copy了10几行代码。

2、用gradle组织项目


fork -》 cd project directory -》gradlew.bat eclipse,然后从eclipse import exist project即可。


建这个项目的目的只有一个:

非常喜欢git的协作开发,希望有人fork和pullrequest,结交一些代码朋友


进展:

完成了gb2313,gbk,utf-8的检测,其中utf8在阅读wiki之后,个人觉得100%可以识别正确,但是对于gb2312和gbk的差异没有体现出来,如果识别一个byte[],那么检测出来是gb2312和gbk问题不大。如果检测一个文件的话,除非检测整个文件,因为gbk包含gb2312,如果作为抽样的片段刚好在gb2312范围内,而文档的其它部分超出了gb2312的范围就会有问题。


目前需要big5的特征,有这个方面经验的同学看到,请留言帮助。




转载于:https://my.oschina.net/jianglibo/blog/540182

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值