C#文本文件编码问题,区别UTF-8和GB2312

本文介绍了在C#中处理文本文件时遇到的编码问题,特别是如何区分UTF-8和GB2312编码。通过分析UTF-8的BOM标识和字节比较方法,提供了判断文件编码的解决方案,包括当UTF-8文件无BOM时的处理策略。
摘要由CSDN通过智能技术生成

 

最近用C#涉及到一些读取 txt文本文件的操作,但是一个编码问题就困惑了我好久。如果编码选的不对,会造成乱码。之前转载的一片文章提出了一种解决方法,就是用new StreamReader(file, Encoding.Default)。这种方法解决了大部分问题,但是测试中发现对于有的UTF-8文件依然会造成乱码(中文windows环境)。

 

于是上网搜索解决方案。大多数是说UTF-8有特殊的前导码EF BB BF,只要认出这个就能判定是UTF-8编码了。但是我测试的一个文件发现前面并

 没有这些前导码啊…于是继续搜索……

 

 

先转一篇直接知道怎么做的博文:

 

http://blog.csdn.net/zdg/archive/2005/01/29/272643.aspx


 一)需求
很多情况下我们需要知道字节流的编码,比如
1) 使用编辑器打开文本文件的时候,编辑器需要识别文本文件的各种编码
2) 上传文件后,分析上传文件字节流需要知道它的编码

 

二)探讨
不过C#目前还没有现成的函数能够获取,经过和同事的探讨,发现UTF8文件都有一个3字节的头,为“EF BB BF”(称为BOM--Byte Order Mark),判断这个头信息不就可以解决了吗?代码如下:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值