信息导论 | 平时总结

最新推荐文章于 2023-06-29 09:59:58 发布

MILJ

最新推荐文章于 2023-06-29 09:59:58 发布

阅读量352

点赞数

分类专栏：信息导论小知识文章标签：经验分享

本文链接：https://blog.csdn.net/qq_45829851/article/details/104161527

版权

信息导论小知识专栏收录该内容

1 篇文章 0 订阅

订阅专栏

ASCII码表

来自于网络
部分摘自:百度百科.

ASCII,即美国信息交换标准代码，等同于国际标准ISO/IEC 646，到目前为止共定义了128个字符。ASCII 码使用指定的7 位或8 位二进制数组合来表示128 或256 种可能的字符。
标准ASCII 码也叫基础ASCII码，使用7 位二进制数（剩下的1位二进制为0）来表示所有的大写和小写字母，数字0 到9、标点符号，以及在美式英语中使用的特殊控制字符。其中：
0～31及127(共33个)是控制字符或通信专用字符（其余为可显示字符），如控制符：LF（换行）、CR（回车）、FF（换页）、DEL（删除）、BS（退格)、BEL（响铃）等；通信专用字符：SOH（文头）、EOT（文尾）、ACK（确认）等；ASCII值为8、9、10 和13 分别转换为退格、制表、换行和回车字符。它们并没有特定的图形显示，但会依不同的应用程序，而对文本显示有不同的影响。
32～126(共95个)是字符(32是空格），其中48～57为0到9十个阿拉伯数字。65～90为26个大写英文字母，97～122号为26个小写英文字母，其余为一些标点符号、运算符号等。
同时还要注意，在标准ASCII中，其最高位(b7)用作奇偶校验位。所谓奇偶校验，是指在代码传送过程中用来检验是否出现错误的一种方法，一般分奇校验和偶校验两种。奇校验规定：正确的代码一个字节中1的个数必须是奇数，若非奇数，则在最高位b7添1；偶校验规定：正确的代码一个字节中1的个数必须是偶数，若非偶数，则在最高位b7添1。
后128个称为扩展ASCII码。许多基于x86的系统都支持使用扩展（或“高”）ASCII。扩展ASCII 码允许将每个字符的第8 位用于确定附加的128 个特殊符号字符、外来语字母和图形符号。
来自于网络

0~31的ASCII码在Devc++的窗口不能显示（图中以英文逗号分隔）
在这里插入图片描述
127的ASCII码为删除（DEL）在Devc++的窗口不能显示（~的ASCII码为126，图中 ~,的下面为 , ，DEL没有显示出来）

表中高四位，低四位是指：英文中ASCII用一个字符足以表示所有的字符，标准ASCII码用前7位表示字符。例如:0001 0000 表示 DLE (data link escape)，解释为数据链路转义，其十进制为16。
所以高在左，低在右。

并不是所有ASCII码都可以显示在电脑上的。
//输出ASCII码能显示出哪些字符
#include<stdio.h>
int main()
{int i;
for(i=0;i<128;i++)
printf("%c\n",char(i));
return 0;
}

常见ASCII码的大小规则：0~ 9<A~ Z<a ~ z。
1）数字比字母要小。如 “7”<“F”；
2）数字0比数字9要小，并按0到9顺序递增。如 “3”<“8” ；
3）字母A比字母Z要小，并按A到Z顺序递增。如“A”<“Z” ；
4）同个字母的大写字母比小写字母要小32。如“A”<“a” 。
几个常见字母的ASCII码大小： “A”为65；“a”为97；“0”为 48。

在英语中，用128个符号编码便可以表示所有，但是用来表示其他语言，128个符号是不够的。比如，在法语中，字母上方有注音符号，它就无法用 ASCII 码表示。于是，一些欧洲国家就决定，利用字节中闲置的最高位编入新的符号。比如，法语中的é的编码为130（二进制10000010）。这样一来，这些欧洲国家使用的编码体系，可以表示最多256个符号。
但是，这里又出现了新的问题。不同的国家有不同的字母，因此，哪怕它们都使用256个符号的编码方式，代表的字母却不一样。比如，130在法语编码中代表了é，在希伯来语编码中却代表了字母Gimel (ג)，在俄语编码中又会代表另一个符号。但是不管怎样，所有这些编码方式中，0–127表示的符号是一样的，不一样的只是128–255的这一段 。
至于亚洲国家的文字，使用的符号就更多了，汉字就多达10万左右。一个字节只能表示256种符号，肯定是不够的，就必须使用多个字节表达一个符号。比如，简体中文常见的编码方式是 GB2312，使用两个字节表示一个汉字，所以理论上最多可以表示 256 x 256 = 65536 个符号。

ps:1.为了解决中国、日本和韩国的象形文字符和ASCII的某种兼容性，出现了双字节字符集（DBCS：double-byte character set）。DBCS从第256 代码开始，就像ASCII一样，最初的128个代码是ASCII。然而，较高的128个代码中的某些总是跟随着第二个字节。这两个字节一起（称作首字节和跟随字节）定义一个字符，通常是一个复杂的象形文字。
2.目前的文字编码标准主要有 ASCII、GB2312、GBK、Unicode等。ASCII 编码是最简单的西文编码方案。GB2312、GBK、GB18030 是汉字字符编码方案的国家标准。ISO/IEC 10646 和 Unicode 都是全球字符编码的国际标准。
3.GB18030-2005《信息技术中文编码字符集》是我国制订的以汉字为主并包含多种我国少数民族文字（如藏、蒙古、傣、彝、朝鲜、维吾尔文等）的超大型中文编码字符集强制性标准，其中收入汉字70000余个。

汉字区位码、国标码、机内码

GB2312-80 是 1980 年制定的中国汉字编码国家标准。共收录 7445 个字符，其中汉字 6763 个。GB2312 兼容标准 ASCII码，采用扩展 ASCII 码的编码空间进行编码，一个汉字占用两个字节，每个字节的最高位为 1。具体办法是：收集了 7445 个字符组成 94*94 的方阵，每一行称为一个“区”，每一列称为一个“位”，区号位号的范围均为 01-94，区号和位号组成的代码称为“区位码”。区位输入法就是通过输入区位码实现汉字输入的。将区号和位号分别加上 20H，得到的 4 位十六进制整数称为国标码，编码范围为 0x2121～0x7E7E。为了兼容标准 ASCII 码，给国标码的每个字节加 80H，形成的编码称为机内码，简称内码，是汉字在机器中实际的存储代码GB2312-80 标准的内码范围是 0xA1A1～0xFEFE。

寻址空间

寻址空间一般指的是CPU对于内存寻址的能力。通俗地说，就是能最多用到多少内存的一个问题。数据在存储器(RAM)中存放是有规律的，CPU在运算的时候需要把数据提取出来就需要知道数据存放在哪里，这时候就需要挨家挨户的找，这就叫做寻址，但如果地址太多超出了CPU的能力范围，CPU就无法找到数据了。 CPU最大能查找多大范围的地址叫做寻址能力，CPU的寻址能力以字节为单位，如32位寻址的CPU可以寻址2的32次方大小的地址也就是4G，这也是为什么32位的CPU最大能搭配4G内存的原因，再多的话CPU就找不到了。
内存的每个地址单元是1个字节（Byte）
CPU寻址能力是指可寻址的单元（Byte）总量
32位CPU寻址范围计算：
2^32 = 4294967296（Byte) = 4194304 KB = 4096 MB = 4GB
之前在C++技术网发的一篇文章，复制过来，记录一下。我们经常说32位的操作系统最大能用4G的内存（实际会更小），再大了系统识别不出来，因为超过了寻址范围。实际这里我们只考虑了软件层面，64位的系统要搭配64位的CPU才行，而实际最终决定寻址范围的是CPU的地址总线。32位的CPU其地址总线是32根，每一根都可以看做二进制数中的一个位，故其寻址范围为2^32个内存单元，而计算机内部一个内存单元一般为1Byte（也就是8个bit，注意这个位（bit）和之前所说的位（二进制数中的一个位）区分），所以最终寻址范围就是 22 * 210 * 210 * 210 Byte = 22 * 210 * 210 KB = 22 * 210 MB = 4 GB ; 当然64位的CPU可以安装32位的系统（现在绝大多数是64位的），所有才会有系统的位数会影响寻址能力这一说法。
原文链接:
https://blog.csdn.net/Meteor_s/article/details/81282846
https://blog.csdn.net/chrisxiaoniu/article/details/79813100