C语言实现编码与解码

wespten

于 2024-01-23 07:55:12 发布

阅读量85

点赞数

分类专栏：全栈网络安全渗透测试代码审计网络安全工具开发文章标签： stm32 嵌入式硬件单片机

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_35029061/article/details/135749631

版权

全栈网络安全渗透测试代码审计网络安全工具开发专栏收录该内容

259 篇文章 105 订阅 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

这篇博客介绍了字符编码，包括GBK、Unicode和UTF-8的区别。在Windows中，GBK是默认的兼容ASCII码的编码格式，而UTF-8文件前有BOM标识。文章探讨了不同编码保存文件的内容差异，以及在不同系统下的显示问题。还讲解了HTML页面和XML文件的编码设置，并讨论了内存中字符串编码的不确定性。此外，博客还涉及Unicode与UTF-8之间的转换，以及C语言中的转义字符和JSON字符转义的原理与实现。

摘要由CSDN通过智能技术生成

1、中文字符编码

字符编码有好多种，如果一段文本中有非ASCII字符，就必须得用某一种字符编码来表示，将其保存到文件中也是如此。

现在要打开一个文本文件，文件编辑器（记事本，EditPlus等）必须要知道这个文件采用了何种编码，不然没法解析。如果文件是UTF-8编码存储，却被当作GBK编码来解读，最后展示出来肯定会是乱码。

我们先说Windows操作系统下面的情况，GBK是中文版Windows默认的兼容ASCII码的存储格式，所以GBK编码不用特殊标识。只不过这样的文件放到台湾版或是日本版的系统下面打开会是乱码。UTF-8编码的文件就需要特殊处理一下，Windows会在UTF-8编码的文件前增加3个字节的特殊字符 "EF BB BF” ，这就是常说的BOM，全称叫做"Byte Order Mard”。

只是，BOM是为其他编码准备的，UTF-8带BOM并不合标准，只在Windows阵营下才这么用。由于Windows的影响范围太广，很多文本编辑器都是支持带BOM的UTF-8文本。在Mac和Linux下就不吃这一套，很有可能会出现乱码。大部分编译器也不认，遇到问题会直接编译错误。

我们可以用Windows自带的记事本来存储不同格式的文本并进行比较。打开记事本，输入一段文本，比如就三个字“中国人”，保存时可以指定编码，如下图：

其中ANSI默认就是GBK编码，Unicode和UTF-8分别是相应的编码。而出现的big endi

了解本专栏

超级会员免费看

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
C语言实现编码与解码

其中，退格键（0x08，\b），制表符（0x09，\t），换行符(0x0a，\n)，回车(0x0d，\r)，换页符(0x0c，\f)，双引号(0x22，“)，反斜杠(0x5c，\)这7个符号需要特殊处理，其他的都不做处理。这里要格外注意，GBK和UTF-8的基本单位是byte，是一个字节，编辑器对其解析时是顺序的。之所以会出现这两种情况，就是因为str所指向的字符串其内容受源代码文件的编码格式影响，如果是以gbk编码保存，则执行结果是第一种情况，如果是用utf-8编码保存，就是第2种情况。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

wespten 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。