1.概念
计算机编码格式主要是针对文本信息(文字、数字、符号等)进行编码。在程序处理中,主要针对string字符串内容编码成字节流(byte[]、字节数组,或二进制流)。计算机编码指定了如何将文本中的每个字符映射到一个或多个字节上。
2.文本文件读取
在windows系统中,右键创建一个test.txt文件,并输入内容保存。
string strContent = File.ReadAllText("test.txt");
byte[] byteContent = Encoding.UTF8.GetBytes(strContent);
或者
byte[] byteContentEx = File.ReadAllBytes("test.txt");
两种方式读取得到的结果相同,test.txt作为文本文件,只包含文本信息,读取到的文本内容就是这个文件的二进制流。此外,在计算机磁盘中,文件是以二进制流的形式存储的。
3.UTF8编码最常用
上述2.中,将读取的文本内容,以UTF8编码格式转为字节流。UTF8包含了世界上几乎所有书面语言的字符、符号、表情符号(Emojis)等。而且能够兼容ASCII编码(即ASCII字符在UTF-8中仅用1个字节表示),因此它在互联网上得到了广泛应用。