CTF-乱码、编码、字符集的了解

本文介绍了ASCII字符集、码点和字符集的概念,探讨了乱码产生的原因,重点讲解了Unicode字符集和UTF-32、UTF-8两种不同的编码方式,强调了字符编码在存储中的实际应用和UTF-8的变长特性以节省空间。
摘要由CSDN通过智能技术生成

1.1 ASCII字符集

包括了数字、字母、英文符号、控制字符(负责换行、回车、等特殊的控制功能)
在这里插入图片描述

在这里插入图片描述

码点

每个字符都有一个对应的数字,叫做码点
在这里插入图片描述

字符集

标准所支持的所有字符及其对应码点的集合叫做字符集。上图即ASCII字符集

编码

在这里插入图片描述
从字符到计算机能够储存的内容之间的映射叫做编码

1.2 乱码的出现

标准不统一时,乱码问题也随之产生。

因为计算机内存里的同一个数字在不同字符集里代表的可能是完全不同的字符
在这里插入图片描述

1.3 UNICODE字符集

Unicode的每个字符也有对应码点
许多语言都有查询Unicodo字符码点的内置函数
比如Python的ord函数

1.4 字符集

只是字符及字符对应码点的集合
不代表字符一定会以对应码点被储存在计算机里

字符编码才是真正定义了从字符到计算机储存内容的映射

UTF-32编码

那最简单的编码规则自然就是把字符对应的码点直接以二进制储存在计算机里
UTF-32编码针对Unicode这样做的
(之前了解的ASCII编码也是针对ASCII字符集这样做的)
在这里插入图片描述

比较耗存储空间,都拿来放0了
英文:4倍
在这里插入图片描述
中文:2倍
在这里插入图片描述

1.5 UTF-8编码

UTF-8是针对Unicode的可变长度编码
不同于编码后长度固定为32比特的UTF-32,UTF-8针对不同字符编码后的长度可以是32比特、24比特、16比特、8比特

在这里插入图片描述

在这里插入图片描述
此处x,y,z,w占位符均表示0或1

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小蜗牛狂飙记

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值