深入理解ASCII,Unicode和UTF-8编码

1.为什么需要编码?

  由于计算机只能处理0和1(即两种状态:高低电平),所有我们需要将英文字母,数字,特殊符号翻译成计算机认识的0和1,那如何去翻译以及用何种规则去翻译呢,于是聪明的人们发明了一系列编码规则,即字符和数字的对应。最先被发明的是ASCII编码,后来则衍生出了Unicode编码和UTF-8编码。

2.编码格式的演变

  世界第一台计算机诞生于美国宾西法尼亚大学,所以最早使用计算机的是美国人,最早的信息交换代码也诞生于美国,即ASCII(America Standard Code for Infomation Interchange,美国信息交换标准代码)。ASCII码实质就是数字和字符的对应关系,比如大写字母"A"所对应的十进制数字为65(为了更易理解我们以十进制举例,八进制,十六进制同理),而十进制数字65在计算机中表示为01000001,计算机不能存储字符,但是能存储0和1,所以字母“A”在计算机中实际存储为01000001,占8位,即1个字节。其他字符也是同样的道理,各自对应一个十进制数字,可参考ASCII码标准对照表。是不是很简单,但是为何人们还制定Unicode编码呢?由于ASCII编码是美国标准,所涵盖的字符也只仅仅包含了A-Z,a-z,数字0-9,以及其他的控制字符和一些特殊字符,一共包含127个字符,后来由于计算机普及,这127个符号已经不能满足人们的需求,于是IBM利用128~255位对ASCII码进行了补充,包含了附加符号符号,希腊字母以及制图符号等,这一部分编码则称为扩展ASCII码。
  世界上有上百种语言,很显然,标准ASCII码和扩展ASCII码仍然不能满足不同国家对于编码的需求,比如汉字的“汉”就不能用ASCII码表示,如果在编辑器设置了ASCII编码,在遇到汉字的情景下则会出现乱码,于是中国制定了GB2312编码,日本制定了Shift_JIS编码,但是同一款应用,不同地区的人使用,就需要包含不同的编码集合,显然这样做是不明智的,于是Unicode应运而生。Unicode编码通常用2个字节表示,有些偏僻的字符会用到2-4个字节,从而实现一套编码保存所有字符,这样不同国家,不同地区就形成了一套统一的编码格式。
  还是拿字符“A”举栗子,“A”对应的ASCII码为01000001,如果将“A”用Unicode编码表示就在前面补0就可以了,0000000001000001,现在我们也可以用Unicode编码来表示“汉”了,0110110001001001。不难发现,如果用Unicode去编码所有的字符,乱码的问题也就迎刃而解,但是问题也来了,如果一段文字中,既有英文字母,又有汉字,英文字母同样也会用2个字节(16位)来进行表示,这显然会造成存储空间的浪费。那么有没有一种更加通用并且更加节省存储空间的编码呢?当然是有的,聪明的人们发明出了UTF-8编码,UTF-8是一种可变长的编码,为啥叫UTF-8呢,这个8是什么意思呢?8代表一个字节,即8位,但不代表UTF-8用一个字节表示一个字符,而是在UTF-8编码格式下,一个字符所占字节大小变化的最小单位,有点绕,说人话就是由于UTF-8编码下,不同字符占用空间的大小是可变的,每个字符可能是1个字节,也可能是2个或者3个字节。   

----- 待更新

CSDN海神之光上传的代码均可运行,亲测可用,直接替换数据即可,适合小白; 1、代码压缩包内容 主函数:main.m; 调用函数:其他m文件;无需运行 运行结果效果图; 2、代码运行版本 Matlab 2019b或2023b;若运行有误,根据提示修改;若不会,私信博主; 3、运行操作步骤 步骤一:将所有文件放到Matlab的当前文件夹; 步骤二:双击打开main.m文件; 步骤三:点击运行,等程序运行完得到结果; 4、仿真咨询 如需其他服务,可私信博主或扫描博客文章底部QQ名片; 4.1 博客或资源的完整代码提供 4.2 期刊或参考文献复现 4.3 Matlab程序定制 4.4 科研合作 功率谱估计: 故障诊断分析: 雷达通信:雷达LFM、MIMO、成像、定位、干扰、检测、信号分析、脉冲压缩 滤波估计:SOC估计 目标定位:WSN定位、滤波跟踪、目标定位 生物电信号:肌电信号EMG、脑电信号EEG、心电信号ECG 通信系统:DOA估计、编码译码、变分模态分解、管道泄漏、滤波器、数字信号处理+传输+分析+去噪(CEEMDAN)、数字信号调制、误码率、信号估计、DTMF、信号检测识别融合、LEACH协议、信号检测、水声通信 1. EMD(经验模态分解,Empirical Mode Decomposition) 2. TVF-EMD(时变滤波的经验模态分解,Time-Varying Filtered Empirical Mode Decomposition) 3. EEMD(集成经验模态分解,Ensemble Empirical Mode Decomposition) 4. VMD(变分模态分解,Variational Mode Decomposition) 5. CEEMDAN(完全自适应噪声集合经验模态分解,Complementary Ensemble Empirical Mode Decomposition with Adaptive Noise) 6. LMD(局部均值分解,Local Mean Decomposition) 7. RLMD(鲁棒局部均值分解, Robust Local Mean Decomposition) 8. ITD(固有时间尺度分解,Intrinsic Time Decomposition) 9. SVMD(逐次变分模态分解,Sequential Variational Mode Decomposition) 10. ICEEMDAN(改进的完全自适应噪声集合经验模态分解,Improved Complementary Ensemble Empirical Mode Decomposition with Adaptive Noise) 11. FMD(特征模式分解,Feature Mode Decomposition) 12. REMD(鲁棒经验模态分解,Robust Empirical Mode Decomposition) 13. SGMD(辛几何模态分解,Spectral-Grouping-based Mode Decomposition) 14. RLMD(鲁棒局部均值分解,Robust Intrinsic Time Decomposition) 15. ESMD(极点对称模态分解, extreme-point symmetric mode decomposition) 16. CEEMD(互补集合经验模态分解,Complementary Ensemble Empirical Mode Decomposition) 17. SSA(奇异谱分析,Singular Spectrum Analysis) 18. SWD(群分解,Swarm Decomposition) 19. RPSEMD(再生相移正弦辅助经验模态分解,Regenerated Phase-shifted Sinusoids assisted Empirical Mode Decomposition) 20. EWT(经验小波变换,Empirical Wavelet Transform) 21. DWT(离散小波变换,Discraete wavelet transform) 22. TDD(时域分解,Time Domain Decomposition) 23. MODWT(最大重叠离散小波变换,Maximal Overlap Discrete Wavelet Transform) 24. MEMD(多元经验模态分解,Multivariate Empirical Mode Decomposition) 25. MVMD(多元变分模态分解,Multivariate Variational Mode Decomposition)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值