使用UTF8编码的意义

最新推荐文章于 2025-03-12 10:17:35 发布

忱遥

最新推荐文章于 2025-03-12 10:17:35 发布

阅读量1.1k

点赞数

文章标签： java

本文链接：https://blog.csdn.net/qq_52530620/article/details/124356459

版权

先来看一个例子：

以"I am Chinese"为例
用ANSI储存：12 Bytes
用Unicode/UCS2储存：24 Bytes + 2 Bytes(header)
用UCS4储存：48 Bytes + 4 Bytes(header)

以"我是中国人"为例
用ANSI储存：10 Bytes
用Unicode/UCS2储存：10 Bytes + 2 Bytes(header)
用UCS4储存：20 Bytes + 4 Bytes(header)

所以，利用ANSI/Unicode编码是对内存极大的浪费，也不利于大量数据编码

UTF-8为何物？

UTF-8 是 UNICODE 的一种变长字符编码，即 RFC 3629。简单的说大字符集可以解决多种语言文本显示问题，从而实现应用国际化和本地化。

对系统来讲，UTF-8 编码可以通过屏蔽位和移位操作快速读写，排序更加容易。UTF-8 是字节顺序无关的，它的字节顺序在所有系统中都是一样的。因此 UTF-8 具有更高的性能。

常用中文字符用utf-8编码占用3个字节（大约2万多字），但超大字符集中的更大多数汉字要占4个字节（在unicode编码体系中，U+20000开始有5万多汉字）。

UTF8的好处:

数据表现:网页可以显示任何语言和文字,只要你的操作系统支持unicode,还有相应的字体,Linux下系统编码为utf8的话,可以解决很多无谓的中文问题,比如mp3播放器或者gtk2.
数据交换:无需那些gb2312和big5之间的转换程序了.

UTF8的坏处:
用的中文网站还不多,不利于数据交流.
汉字为三个字符,有时varchar不大够用.

总的来看，使用UTF-8编码形式是利大于弊的。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

忱遥

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

编码及为什么要用UTF-8？

Pi的空间

08-14

3932

不得不说的是大小端：Big Endian和Small Endian； 诸如：0x12345678 如果是Big Endian: 则byte[0]（内存中的低地址）存0x12; byte[3]（内存中的高地址）存0x78; 即重要的放在低地址，称为大端； 而Small Endian;则刚好相反；byte[0]（内存中的低地址）存0x78；byte[3]（内存中的高地址）存0x12； 即重要的放在高地址；称为小端； <br

什么用Utf-8编码?

robin622的专栏

03-29

1832

Utf-8编码在国外应用普遍，为什么在国内应用却不多呢？尤其各大门户网站采用Utf-8的几乎没有。是否采用Utf-8，这个问题大家争论已久，但是很少有人系统地解说为什么要采用Utf-8编码？凡事皆有正反！采用Utf-8编码同样有其利弊，当利大于弊，我们当然就采用Utf-8？关于UTF-8编码和中文字符集中文有三种字符集，统一文字的编码将是进一步交流的基础。·国内网站和BLOG较多使用简体中文编码G

参与评论您还未登录，请先登录后发表或查看评论

我们为什么要使用UTF-8编码?

nsnsttn的博客

12-28

2871

UTF-8

掌握UTF-8编码转换：工具使用与操作指南

最新发布

weixin_31776191的博客

03-12

1187

本文还有配套的精品资源，点击获取简介：UTF-8编码是互联网通用的数据交换格式，支持Unicode字符集中的所有字符，兼容ASCII和多字节字符。在处理不同编码格式文件时，使用如“UTF-8工具”和EditPlus等软件能够高效实现文件编码的批量转换。用户通过选择源文件并指定目标编码格式，软件将重新保存文件以适应不同编码需求。正确的编码处理对于维护数据兼容性和避免错误至关...

为什么要采用UTF-8编码

农民田园

09-27

2608

　　前不久有个网友问我说修改L-Blog时老是出现乱码，好像和其他的中文编码不一样，我说因为采用了UTF-8编码。现在大多数程序(BBS|Blog)都是基于GB2312编码的，但是为什么要改用兼容性不好(容易乱码)的UTF-8呢？开始我也不了解，直到我看了Zola的这片文章才有所了解：引用:中文有三种字符集，统一文字的编码将是进一步交流的基础。·国内网站和BLOG较多使用简体中文编码GB2312

为什么写代码要用UTF-8编码格式？

猫巳的博客

03-04

5584

许多同学都知道我们在编写代码时，都有个疑问，为什么要把编码格式设置为UTF-8？UTF-8有什么好处？为什么不用默认的GBK呢？下面我们来一起来探索编码格式的奥秘。

为什么要用UTF-8编码

weixin_34234721的博客

09-01

249

易语言GB2312转UTF8编码教学

08-26

这段代码的含义是：将编辑框1中的文本（假定为GB2312编码）转换为字节集，然后使用`编码转换`函数将其从GB2312转换为UTF8，最后将转换后的结果以文本形式存入编辑框2。 6. 完成代码后，按下F5键进行调试，检查转换...

pycharm设置默认的UTF-8编码模式的方法详解

09-16

此外，理解并使用UTF-8编码对于跨语言和跨文化的软件开发也具有重要意义。总之，PyCharm设置默认的UTF-8编码模式可以确保你的Python代码始终以一致且兼容的方式处理字符。不断学习和掌握这些基本的IDE设置技巧，将...

gb2312_unicode_utf8汉字编码对照表

08-31

对于中文汉字，UTF-8通常使用3个字节进行编码。 #### 五、编码对照实例分析下面通过具体的实例来展示gb2312、Unicode与UTF-8之间的编码对照： 1. **“一一”** - gb2312编码：B6 A1 - Unicode编码：4E01 - ...

判断文本编码是否为UTF-8格式易语言源码例子-易语言

06-12

UTF-8是一种广泛使用的字符编码标准，尤其在互联网上，几乎所有的网页都采用UTF-8编码。这个"判断文本编码是否为UTF-8格式易语言源码例子"是一个针对初学者的教程，旨在教授如何在易语言中识别和验证文本文件的编码...

GBK转UTF8编码工具的使用指南

如果源项目使用的是GBK编码，而目标平台或环境要求使用UTF-8编码，那么转换编码就变得必要。GBK到UTF-8的转换可能会影响项目的数据库、文件系统和用户界面的显示等方面。例如，在数据库层面，表、字段和索引的字符集...

为什么用Utf-8编码?

stephen830

10-28

491

[quote]本篇属于转载，原文：http://www.netfetch.cn/netfetch/article.asp?id=676 [/quote] Utf-8编码在国外应用普遍，为什么在国内应用却不多呢？尤其各大门户网站采用Utf-8的几乎没有。是否采用Utf-8，这个问题大家争论已久，但是很少有人系统地解说为什么要采用Utf-8编码？凡事皆有正反！采用Utf-8编码同样有...

UTF-8编码的意义

weixin_51508971的博客

04-23

2663

UTF-8编码是在互联网上使用最广的一种编码，它是一种Unicode编码的实现方式。因为计算机只能处理数字，如果要处理文本就需要把文本文字按一定的规则转为计算机能处理的数字，这个过程称为编码。起初只有127个字符被编码到计算机里，其中包括大小写英文字母，数字和一些符号，这个编码表就是ASCII编码。计算机普及后计算机不止需要处理一种语言，于是各个国家出现了不同的标准，例如中国制定了GB2312编码，日本制订了Shift_JIS编码。因为标准不同就不可避免得产生冲突，在多语言混合的文本中就会显示出乱码，后来

UTF-8

finewings的专栏

01-17

665

UTF-8编码字节含义对于UTF-8编码中的任意字节B，如果B的第一位为0，则B为ASCII码，并且B独立的表示一个字符;如果B的第一位为1，第二位为0，则B为一个非ASCII字符（该字符由多个字节表示）中的一个字节，并且不为字符的第一个字节编码;如果B的前两位为1，第三位为0，则B为一个非ASCII字符（该字符由多个字节表示）中的第一个字节，并且该字符由两个字节表示;如果B的前三位为1，

为什么要使用UTF-8?

延成的博客

05-17

1914

UTF-8 是 UNICODE 的一种变长字符编码，即 RFC 3629。简单的说大字符集可以解决多种语言文本显示问题，从而实现应用国际化和本地化。对系统来讲，UTF-8 编码可以通过屏蔽位和移位操作快速读写，排序更加容易。UTF-8 是字节顺序无关的，它的字节顺序在所有系统中都是一样的。因此 UTF-8 具有更高的性能。 UTF-8: 常用中文字符用utf-8编码占用3个字节（大约2万多字），但超大字符集中的更大多数汉字要占4个字节（在unicode编码体系中，U+20000开始有5万多汉字..

UTF-8是干什么的？

长风破浪会有时的博客

04-30

409

而且，它还有一个特别厉害的地方，就是对于英文字符，它只用一个字节来表示，这样可以节省存储空间。但是，我们人类使用的语言有很多种，比如中文、英文、法文等。所以，UTF-8就像是一个万能的“翻译”，让我们可以在计算机上自由地输入、存储和显示各种语言的文字。现在，UTF-8已经成为了互联网上最常用的字符编码方式之一，它帮助我们打破了语言的障碍，让全世界的人们都能在互联网上自由地交流和分享信息。你可以把UTF-8想象成一个“翻译”，它能帮助我们把人类能读懂的文字，比如中文、英文、日文等，翻译成计算机能懂的语言。

UTF-8编码

chenjing_1qaz的博客

08-14

431

1、ASCII码我们知道，在计算机内部，所有的信息最终都表示为一个二进制的字符串。每一个二进制位（bit）有0和1两种状态，因此八个二进制位就可以组合出256种状态，这被称为一个字节（byte）。也就是说，一个字节一共可以用来表示256种不同的状态，每一个状态对应一个符号，就是256个符号，从0000000到11111111。上个世纪60年代，美国制定了一套字符编码，对英语字符与二进制位之间的...