【学习笔记】计算机编码

最新推荐文章于 2022-08-16 23:38:51 发布

OneInDark

最新推荐文章于 2022-08-16 23:38:51 发布

阅读量152

点赞数

分类专栏： C++

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_42101694/article/details/105113614

版权

C++ 专栏收录该内容

547 篇文章 3 订阅

订阅专栏

0.概述

有一天，我突发奇想，想要在一段文本中筛选出所有的中文。

这一下把我难倒了——老师教的是 $A S C I I$ 码，包含了所有的拉丁字母、数字等。但是汉字是怎么存储的？

我懵了，赶紧上网一阵乱查，把自己都查晕了，写个文章捋一捋。~~所以这是一篇没用的垃圾文章~~。

1. $A S C I I$

$A S C I I$ 码在百度百科中被解释为“美国信息交换标准代码”，是一种编码的方式，也是最简单的一种编码。它的范围很小，只用了 $[0, 128)$ 这些数字。

说明：下文将涉及一些 $\text{C++}$ 内的玩意儿。不知道是不是所有编程语言的存储方式都相同？

如果你试着将 $c h a r$ 和 $i n t$ 乱转换，你就会得到一张 $A S C I I$ 码表。这在百度百科中有。

众所周知， $c h a r$ 是一个字节，可以存储 $[- 128, 128)$ 内的整数。

2. $U T F - 8$

只有拉丁字母怎么够？世界上那么多的语言，只靠 $A S C I I$ 码表示不了啊。

然后就有了更强力的编码方案， $u n i c o d e$ 。显然来源于 $u n i q u e$ 的意义。它 可以容纳世界上所有文字和符号！可以参见百度百科。

介绍一个小技巧：在 $w o r d$ 中按 $A l t + X$ ，可以使光标前的字符转化成 $u n i c o d e$ 码（十六进制）！再按一次，还能转换回来。提示： $u n i c o d e$ 是四位十六进制数，共两字节。

然而，很显然，这玩意儿很长。全世界的字符那么多，如果每一个都按照 $u n i c o d e$ 规定的码值来存储，就会很浪费空间。用二进制一看：一大堆零！

所以 $u n i c o d e$ 只规定了一个对应法则，但是 存储时使用特定方案。其中一种，就是 $U T F - 8$ 。

它是变长的，使用一到六个字节。究竟怎么存？请看这篇文章。

3. $A N S I$

$A N S I$ 是啥呀？其实就是 本地语言。所以它并不固定，在中国（简体中文）， $A N S I$ 代指 $G B K$ 或 $GB\bf{2312}$ 。

但是，任何一个国家的 $A N S I$ 都会使用两个字节来存储，除了纯英文使用 $A S C I I$ 码。

可以看这篇文章来加深印象。至于 $G B K$ 么？我马上要讲的啦！

4. $GB\bf{2312}$

这是什么？是中文的编码方案（~~终于进入正题了~~）。它使用两个字节来存储一个汉字。而且，很有特点的是，这两个字节范围为 $[\text{0x80,0xFF})$ 。为什么不使用 $\text{0xFF}$ 这个编码呢？有待考究。

这个范围，使用 $c h a r$ 存储时，将会得到负数。所以，负数就是判断中文的方法！

5. $G B K$

然而 $GB\bf{2312}$ 没有收录所有汉字，所以又搞了个 $G B K$ ， $A N S I$ 在 $w i n 95$ 以后就代表着这种编码方式。

更多的我就不讲了，同学们自己看看这篇文章也是极好的。

反正我还没碰到过需要使用 $GB\bf 18030$ 相较于 $G B K$ 扩展的字符。

6.控制台语言

有时候程序输出到控制台（黑窗口， $c m d$ ）的中文会变成乱码，但是改用文件输入输出，直接打开文件，结果又是正确的。为什么？

因为控制台的默认语言是 $A N S I$ 。这可以通过右键单击打开的 $c m d$ 窗口的边栏，选择属性，进行查看。

程序内的汉字常量（双引号内的汉字）的编码方式取决于 $c p p$ 文件本身。 $t x t$ 文件默认 $A N S I$ 。

7.总结

$A S C I I$ 是个超级小的字符编码，但是常用的符号，如空格、换行等，皆包含其内。并且，这是国际标准，所以其余的编码方案几乎都没有改动已有的 $A S C I I$ 对应方案。
$U T F - 8$ 是存储全世界通用编码 $u n i c o d e$ 的方案。存储 $A S C I I$ 码包含的字符，只需要一个字节；存储汉字，需要三个字节。所以， $U T F - 8$ 可以存储中文。
$GB{\bf 2312},GBK,GB\bf 18030$ 都是汉字编码方式。与 $U T F - 8$ 是独立的。双字节，专门管中文，遇到日文就有点捉急了。
判断中文的方法：对于 $G B K$ ，使用 $c < 0$ 即可；对于 $U T F - 8$ 怎么办？

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

OneInDark CSDN认证博客专家 CSDN认证企业博客

码龄6年

780: 原创

17万+: 周排名

118万+: 总排名

35万+: 访问

: 等级

8966: 积分

150: 粉丝

288: 获赞

416: 评论

579: 收藏

私信

关注

热门文章

分类专栏

最新评论

【学习笔记】拉格朗日反演
weixin_43326739: 请问多元拉反的图论解释在哪本书上有详细的解释啊，没入门听得云里雾里的。
【学习笔记】拉格朗日反演
weixin_43326739: 请问第3小节里面，也就是拉反第一次拓展公式中的G可以属于形式洛朗级数环吗？看你推导中应该是可以的
[2019 CSP-S Day2 T2]划分
清风qwq: 证明里不是说“尽管这可能并不是合法的方案”吗？为什么之后还能用呢？
Prim正确性的证明
JadeXuu: 您这个方法可以证明两个连通分量之间应该选最短路径，但构造的时候T1并不是一个连通分量，这个时候该怎么考虑呢？
Prim正确性的证明
JadeXuu: 生成树的导出子图不一定连通的吧？

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。