信息编码杂谈

1. 中国古老的阴阳八卦

首先我们看看《易传·系辞上传》,“易有太极,是生两仪,两仪生四象,四象生八卦。”从以下这个图就很好理解:

图片

细心的你也许会发现,这是二进制的级数增长,这不就是1,2,4,8么!

再看看,《道德经》:道生一,一生二,二生三,三生万物。

这段话,其实跟《易传》的很像,意思是:

道是独一无二的,道本身包含阴阳二气,阴阳二气相交而形成一种适匀的状态,万物在这种状态中产生。

理工科出身的我,很容易想到,阴阳便是0和1,阴阳的相交,即0和1的组合,便可产生万物(计算机里面的一切)。

很多书都讲这是古人的宇宙生成论或者是朴素的哲学概念,但这跟计算机里面的二进制原理为什么这么相似,这么巧合?

 

2. 过去的信息传递

在没有电话和计算机的年代,人们是怎么记录或传递信息的?

狼烟烽火

用来传递敌情(有和无)图片

图片

类似的,还有纸鸢(风筝)。现在中国风筝有俩流派,即“北潍坊,南阳江”。

图片

结绳

人们用来计数记事和传递信息。文字产生之前人们用来记数记事和传递信息的方法。相传大事打大结,小事打小结。

图片

击鼓鸣金

看《三国演义》就会知道,里面多次提到击鼓和鸣金。不同的方式和节奏传递不同的信息。

图片

旗语

在军事上也用的非常多。

故夜战多火鼓,昼战多旌旗,所以变人之耳目也。

《孙子兵法》

图片

诸如此类的,还有很多很多,如飞鸽传书、鱼传尺素等。

3. 近现代的电子信息

首先看看电报

欧洲的科学家在18世纪逐渐发现电的各种特质。同时开始有人研究使用电来传递讯息的可能。早在1753年,一名英国人便提出使用静电来拍发电报。

百度百科

图片

还有摩斯密码

摩尔斯电码也被称作摩斯密码,是一种时通时断的信号代码,通过不同的排列顺序来表达不同的英文字母、数字和标点符号。它发明于1837年,是一种早期的数字化通信形式。不同于现代化的数字通讯,摩尔斯电码只使用零和一两种状态的二进制代码,它的代码包括五种:短促的点信号“・”,读“滴”(Di)保持一定时间的长信号“—”,读“嗒”(Da)表示点和划之间的停顿、每个词之间中等的停顿,以及句子之间长的停顿。

百度百科

图片图片

电子计算机

到1946年,世界第一台电子计算机诞生了。它是一个庞然大物,用了18000个电子管,占地170平方米,重达30吨,耗电功率约150千瓦,每秒钟可进行5000次运算。

这个功能性能,从现在看来虽然很渣,但是其诞生具有划时代意义。

发明计算机的同学们用8个晶体管的“通”或“断”组合出一些状态来表示世间万物。

图片

在这里,不得不提一个人——冯·诺依曼。他是匈牙利裔美籍数学家、物理学家、计算机科学家,在计算机、博弈论、核武器和生化武器等领域的全才之一,被后来人称为“计算机之父”和“博弈论之父”。

我们今天用到的计算机,都是基于冯诺依曼体系结构的。

4. 字节

讲了这么多,现在开始讲字节,开始之前,先复习下几个概念:

比特(bit):也可称为“位”,是计算机信息中的最小单位,是 binary digit(二进制数位) 的 缩写,指二进制中的一位 

字节(Byte):计算机中信息计量的一种单位,一个位就代表“0”或“1”,每8个位(bit)组成一个字节(Byte) 

字符(Character):文字与符号的总称,可以是各个国家的文字、标点符号、图形符号、数字等 

字符集(Character Set):是多个字符的集合 

编码(Encoding): 信息从一种形式或格式转换为另一种形式的过程 

解码(decoding): 编码的逆过程 

字符编码(Character Encoding): 按照何种规则存储字符

我们知道字节(Byte)是计算机信息存储的基本单位,它由8个位(bit)组成。但是,为什么是8个位,而不是三个四个,也不是九个十个?

网上很多都说是因为ASCII,其实不是,这不是因果关系。

位(bit),一个位只有两种状态,0和1,可表示晶体管的“通”和“断”,计算机的存储和逻辑就是通过这些晶体管的“通”和“断”来表达。

早期的计算机是用来做数学运算的,数字就0~9,其实4个bit就足够了,可以通过BCD码的方式来表达数字。

但是,不能用4个bit来表示一个Byte啊,4个bit表示数字还好,其他字母呢,那得用两个byte来表示,跨byte访问,会降低效率啊。

历史上,早期的Byte的大小没有固定的标准,其很大程度依赖于硬件设计,使用1到48位的情况都有,但比较常用的是6位(BCDIC)。使用6位和9位的计算机在19世纪60年代非常常见,这些系统通常具有12、18、24、30、36、48或60位的存储。

4位和6位也是在早期比较常用的,它们当时被用在美国陆军(FIELDATA)和海军常见的可打印图形模式。这些表示包括字母数字字符和特殊的图形符号。这些集合在1963年扩展为7位编码,称为美国信息交换标准代码(ASCII),称为联邦信息处理标准,取代了1960年代美国政府和大学不同部门使用的不兼容的电传打印机代码。 这个就是ASCII的由来。呵呵,ASCII字符其实用7位就够了,不是8位哦。

那么今天的8位Byte是怎么来的呢?

这就要提到System/360了。在十九世纪60年代初期,IBM同时积极参与ASCII标准化,同时在System/360产品线中引入了八位扩展二进制编码十进制交换码(EBCDIC),这是对六位二进制编码十进制(BCDIC)的扩展。IBM突出的表现,逐渐就让8位Byte普及开来了。但是呢,这个EBCDIC和ASCII是不一样的哦。

十九世纪70年代八位微处理器的发展普及了这种存储容量。早期的计算机如Intel的8088、8086是可以通过4位访问的哦,那时叫做半字节。

也许你用过8位单片机,但是你听说过4位单片机吗?哈哈!

5. 进制

我们最熟知的是十进制,从小接触的数字和算术计算用的都是十进制。然后学到信息计算机相关知识了,就开始接触或认识二进制。上面也提到了,阴阳八卦用的就是二进制。其实二进制普遍存于大自然中,也存在于生活中。

那么除了十进制、二进制,还有哪些进制呢?八进制、十六进制等等。这些都是程序员熟悉的。

讲了这么多,什么是进制?

进制就是进位计数制,是人为定义的带进位的计数方法。十进制是逢十进一,二进制是逢二进一,十六进制是逢十六进一,那么X进制就是逢X进一了。

进制在数字上怎么表示?

也很简单,进制小于10的,用阿拉伯数字就很容易表达出来。如:

十进制:0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10。这个10就是逢十进一变成两位数了。

八进制:0, 1, 2, 3, 4, 5, 6, 7, 10。这个10就是逢八进一变成两位数了,按数值计算,这个八进制的10相当于十进制的9,是表达形式变了。

二进制:0, 1, 10。这个10就是逢二进一变成两位数了。

那么进制大于10的呢,如十六进制怎么表示?

十六进制:0, 1, 2, 3, 4, 5, 6, 7, 8, 9, A, B, C, D, E, F, 10。这个10就是逢十六进一变成两位数了。因为阿拉伯数字没有单一数字表达的10, 11, 12, 13, 14, 15,所以采用A, B, C, D, E, F来表达,只是表达形式不一样而已。

上面我们提到了个BCD码,啥是BCD码?十六进制又是什么鬼?

十进制二进制八进制十六进制
0000
1111
21022
31133
410044
510155
611066
711177
81000108
91001119
10101012A
11101113B
12110014C
13110115D
14111016E
15111117F
161000010010

于是,可以约定,这些进制的表达方式,不然10到底是几进制的表达的数字是多少都不知道。

二进制用B(Binary)来表达,如1001B,但是编程语言中最小的单位是Byte,所以没有约定表达二进制的方法。

八进制用O(Oct)来表达,写成123O?这个O和0写法相近,会让人误解的,好困惑哦。在编程语言中,通常在数字前面加个0,即0123表示八进制的123,注意跟十进制的123不相等哦。

十六进制用H(Hex)表示,如2BH,编程语言中用0x开头来表示,如0x2B。

这里为什么提二进制、十进制、八进制和十六进制呢?十进制刚才说了,是最常见接触最多的进制,而二进制是计算机的基本进制,但计算机通常以8 Bit的Byte来作为基本单位,那么一个Byte的刚好可以表示16个数,所以,十六进制是非常常用的,而八进制就是对于半个Byte了。

好了,问题来了,除了这些常见了,有没有三进制呢,十七进制呢?答案是有的,随你喜欢,多少都行。

Python中有个int的内置函数,可以转换各种进制。以下看看100这个数在各个进制中对应的十进制数值是多少。

>>> int('100', 2)
4
>>> int('100', 3)
9
>>> int('100', 4)
16
>>> int('100', 7)
49
>>> int('100', 8)
64
>>> int('100', 10)
100
>>> int('100', 16)
256
>>> int('100', 17)
289
>>> int('100', 35)
1225
>>> int('100', 36)
1296
>>> int('100', 55)
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
ValueError: int() base must be >= 2 and <= 36

 

这个内置函数int只能算大于等于2并小于等于36进制的数。

6. BCD码

上文提到了个BCD码,这是什么鬼?

BCD码(Binary-Coded Decimal‎),用4位二进制数来表示1位十进制数中的0~9这10个数码,是一种二进制的数字编码形式,用二进制编码的十进制代码。

如果不懂这个概念,要认真读几次上面这段话。简单地理解为,1位十进制数码用4位二进制数来表示,但根据这1位十进制数码和4位二进制数的对应关系(或者表达关系)不一样而有不同的形式,如8421码、2421码、5421码和余3码、余3循环码、格雷码,其中前面三种是有权码,后面三种是无权码。

有权码,自然二进制代码是按照二进制代码各位权值大小,以自然向下加一,逢二进一的方式来表示数值的大小所生成的代码。 

显然,n位自然二进制代码共有2^n种状态取值组合,由于代码中各位的位权值分别为2^3,2^2,2^1,2^0,即8421,所以也称为8421码。这样每位二进制码元都有确定位权值的编码,称为有权码,属于恒权代码。相应的,没有确定位权值的编码叫无权码,也叫非恒权代码。

百度百科——有权码

8421码

8421 BCD码是最基本和最常用的BCD码,0~9的8421码与4位自然二进制形式完全一样,即用0000~1001分别代表它所对应的十进制数。要计算一个多位的8421码可以每位单独拆分出来,并算出对应的二进制码(不足四位前面补0),然后拼起来即可。举个例子:

8421码:235,拆分出来是2、3、5,分别对应二进制是0010、0011、1001,拼起来是0010 0011 1001。

5421和2421

5421 BCD码和2421 BCD码,这两种有权BCD码中,有的十进制数码存在两种加权方法,例如,5421 BCD码中的数码5,既可以用1000表示,也可以用0101表示;2421 BCD码中的数码6,既可以用1100表示, 也可以用0110表示。这说明5421 BCD码和2421 BCD码的编码方案都不是惟一的。

下面列举8421码、2421码、5421码和一位十进制数的对照关系。

十进制数8421码5421码2421码
0000000000000
1000100010001
2001000100010
3001100110011
4010001000100
5010110001011
6011010011100
7011110101101
8100010111110
9100111001111

余3码和余3循环码

余3码实很简单,是8421 BCD码的每个码组加3(0011)形成的。为什么有余3码这个东西呢,实际上其常用于BCD码的运算电路中。

余3循环码实际上是变权码,每一位的1并不代表固定的数值,十进制数的余3循环码就是取4位格雷码中的十个代码组成。

那么什么是格雷码?

格雷码

格雷码(Gray Code),其由很多曾用名,如格莱码、戈莱码、循环码、反射二进制码、最小差错码等。

格雷码有很多种表现形式

图片

为什么要用格雷码呢?

格雷码是一种具有反射特性和循环特性的单步自补码,其循环和单步特性消除了随机取数时出现重大错误的可能,其反射和自补特性使得对其进行求反操作也非常方便,所以,格雷码属于一种可靠性编码,是一种错误最小化的编码方式,因此格雷码在通信和测量技术中得到广泛应用。 

格雷码属于可靠性编码,是一种错误最小化的编码方式。因为,虽然自然二进制码可以直接由数/模转换器转换成模拟信号,但在某些情况,例如从十进制的3转换为4时二进制码的每一位都要变,能使数字电路产生很大的尖峰电流脉冲。

格雷码Gray Code详解(https://www.cnblogs.com/zhuruibi/p/8988044.html)

怎么计算格雷码?

二进制码→格雷码(编码):

此方法从对应的n位二进制码字中直接得到n位格雷码码字,步骤如下:

  1. 对n位二进制的码字,从右到左,以0到n-1编号

  2. 如果二进制码字的第i位和i+1位相同,则对应的格雷码的第i位为0,否则为1(当i+1=n时,二进制码字的第n位被认为是0,即第n-1位不变)

图片

关注公众号号“嵌入式软件实战派”,获得更多知识干货。

图片

本人搜集的5款视频编码信息查看工具 AVIcodec_1.2.0.113 光是看扩展名是无法知道影片的正确的编码格式的,特别像DivX这样的高品质、高压缩比的影片格式出现后。除了原本未压缩的AVI影片外,目前使用这样的扩展名格式影就还有DivX、XviD等等,而使用AVIcodec来检测影片的正确压缩格式是较简单的方法,让你知道目前计算机上还少装了什么样的影音编码器。 当然,AVIcodec 也提供了已安装编码器的检测功能,让你知道目前在计算机上已经安装了什么样的编码器。使用AVIcodec 侦测影片格式的方法相当简单,只要在AVIcodec 中加载要检测的影片,即可在窗口中看到完整的影片信息,包括编码方式、影片品质、档案大小等等,当然,影片无法正常的原因也就一目了然。 ------------------------------------------------------------------------ GSpot_2.70 GSpot 能帮你检查多媒体文件所需的 codec,以及关于文件的详细数据,如文件中影 / 音数据所占的比例,文件是如何制成的(影 / 音)等等。 ------------------------------------------------------------------------ InstalledCodec_1.15 不论你是采用幻想影音这类打包式的编解码器还是自己单独下载安装,都要清楚已经安装了哪些,InstalledCodec就是专门用于这个用途的软件。但是光查看怎么行,对于某个引起冲突的解码器我们还能采取措施将其禁用,保证它们之间的兼容性 ------------------------------------------------------------------------ MediaInfo_0.7.30 MediaInfo 用来分析视频音频文件的编码内容信息,是一款是自由软件 (免费使用、免费获得源代码,许可协议:GNU GPL/LGPL)。 MediaInfo可以获得多媒体文件的哪些信息? 内容信息:标题,作者,专辑名,音轨号,日期,总时间……    视频:编码器,长宽比,帧频率,比特率……    音频:编码器,采样率,声道数,语言,比特率……    文本:语言字幕   段落:段落数,列表    DivX, XviD, H263, H.263, H264, x264, ASP, AVC, iTunes, MPEG-1, MPEG1, MPEG-2, MPEG2, MPEG-4, MPEG4, MP4, M4A, M4V, QuickTime, RealVideo, RealAudio, RA, RM, MSMPEG4v1, MSMPEG4v2, MSMPEG4v3, VOB, DVD, WMA, VMW, ASF, 3GP, 3GPP, 3GP2 MediaInfo支持哪些文件格式? 视频:MKV, OGM, AVI, DivX, WMV, QuickTime, Real, MPEG-1, MPEG-2, MPEG-4, DVD (VOB)... (编码器:DivX, XviD, MSMPEG4, ASP, H.264, AVC...)    音频:OGG, MP3, WAV, RA, AC3, DTS, AAC, M4A, AU, AIFF...    字幕:SRT, SSA, ASS, SAMI... multiplexer, demuxer, mixer, muxer, video decoder, audio decoder, PAL, NTSC MediaInfo有哪些主要功能特点?   支持众多视频音频文件格式   多种查看方式:文本,表格,树形图,网页……   自定义查看方式   信息导出:文本,CSV,HTML……   三种发布版本:图形界面,命令行,DLL(动态链接库)   与Windows资源管理器整合:拖放,右键菜单   国际化:有多种界面语言供选择   (软件界面)轻松实现本地化 (需要志愿者翻译语言文件) ------------------------------------------------------------------------ VideoInspector 2.2.4.123 好用的影音编码检测工具,可以检测出本机播放某影片缺少哪些视频编码器、音频编码器。透过它,你可以知道为什么视频文件会没有声音或不能正常播放,它将会帮助你安装所需要的解码软件,同时它还能检查你的系统中哪几种编码可用,支持批量检测,并可导出检测结果。对于喜爱在网上下载电影欣赏的网友来说,Vide
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值