数据概述

最新推荐文章于 2024-07-15 18:30:26 发布

aoyinmi9242

最新推荐文章于 2024-07-15 18:30:26 发布

阅读量182

点赞数

文章标签：大数据人工智能

原文链接：http://www.cnblogs.com/zhangiwei/p/8650194.html

版权

数据知识

1 认识数据的思想及意义

现在的社会是一个高速发展的社会，科技发达，信息流通，人们之间的交流越来越密切，生活也越来越方便，大数据就是这个高科技时代的产物。阿里巴巴创办人马云去台演讲中就提到，未来的时代将不是IT时代，而是DT时代，DT就是Data Technology数据科技，显示大数据对于阿里巴巴集团来说举足轻重。

有人把数据比喻为蕴含能量的煤矿，煤炭按照性质有焦煤、无烟煤、肥煤、贫煤等分类，而露天煤矿、深山煤矿的挖掘成本又不一样。与此类似，大数据并不在“大”，而在于“有用”。价值含量、挖掘成本比数量更为重要。对于很多行业而言，如何利用这些大规模数据是赢得竞争的关键。

大数据的价值体现在以下几个方面：

1）对大量消费者提供产品或服务的企业可以利用大数据进行精准营销；

2）做小而美模式的中小企业可以利用大数据做服务转型；

3）面临互联网压力之下必须转型的传统企业需要与时俱进充分利用大数据的价值。

2 什么是数据？

数据：是事实或观察的结果，是对客观事物的逻辑归纳，是用于表示客观事物的未经加工的原始的素材。

1、数据是信息的表现形式和载体，可以是符号、文字、数字、语音、图像、视频等。数据和信息是不可分离的，数据是信息的表达，信息是数据的内涵。数据本身没有意义，数据只有对实体行为产生影响时才成为信息。

2、数据可以是连续的值，比如声音、图像，称为模拟数据，也可以是离散的，如符号、文字，称为数字数据。

在计算机系统中，数据以二进制信息单元0 1的形式表示。

在计算机系统中，各种字母、数字符号的组合、语音、图像等统称为数据，数据经过加工后就成为信息。

3 数据的表现形式

数据的表现形式可以从多种角度进行分类，下面我们主要理解下计算机中的数据按表现形式进行的划分：

1、数字数据：由阿拉伯数字符号构成的数据。如各种统计或量测数据；

2、模拟数据：指在某个区间产生的连续值，如视频、图像、文字、声音等。

4 计算机数据中的数字数据表现

在现在生活当中，我们进行各种算术运算都是以十进制来表现的，1+9=？答案很简单，10；但是没有人会更加去细想，为什么0--9这十个数在表现出来的时候是一位就OK，而10或100就不是一位呢？那么我们来学习下进制。

那么什么是进制呢？

进制：也就是进位制，是人们规定的一种进位方法。

4.1 十进制

（1）数码：指集合论中刻画任意集合所含元素数量多少的一个概念。

十进制的基本符号是：0、1、2、3、4、5、6、7、8、9，我们把这些称为十进制的数码；也就是基本符号，所有的十进制都由这十个数码组成的，每位在加时都是“逢十进一”。

（2）位权：数制中每一固定位置对应的单位值称为位权

那么大家可以考虑一个问题，说一个十进制数，已知第四位是5，其他位都是0，那么这个数是几？答案：5000，怎么算是5*10^4-1；那么就引入了一个权的概念。

对于十进制，我们可以从0开始，对数字的各个数位进行编号，即个位起从右往左依次为编号0，1，2，…；对的，从小数点后的数位则是-1，-2，...；而n位所代表的权的大小就是10n-1；

在计算机系统中，数据以二进制信息单元0，1的形式表示，那么在计算机系统中，二进制又是怎么一回事呢？

4.2 二进制

二进制：同十进制一样，也是计数的一种方法。

1、计算机中采用二进制主要原因：

1）技术实现简单：计算机是由逻辑电路组成，逻辑电路通常只有两个状态，开关的接通与断开，这两种状态正好可以用“1”和“0”来表示；

2）简化运算规则：两个二进制数和、积运算组合各有三种，运算规则简单，有利于简化计算机内部结构，提高运算速度；

3）适合逻辑运算：逻辑代数是逻辑运算的理论依据，二进制只有两个数码，正好与逻辑代数中的“真”和“假”相吻合；

4）易于进行转换：二进制与十进制数易于互相转换；

5）用二进制表示数据具有抗干扰能力强，可靠性高等优点。因为每位数据只有高低两个状态，当受到一定程度的干扰的时候，仍能可靠地分辨出它是高是低。

2、二进制的数码：0和1，“逢二进一”

3、二进制数的表示形式

方法一：（100001）₂ 方法二：100001B

4、二进制的权位：n位上的数值代表是2^n-1，如二进制数100001到底是我们生活当中十进制的几呢？

5、二进制转换为十进制：方法是按权位求和

二进制数100001=1*2^6-1+0*2^5-1+2*0^4-1+0*2^3-1+0*2^2-1+1*2^1-1=33(注：中间计算过程都是十进制）

6、二进制和十进制一样也可以进行加减乘除算术的四则运算，还可以进行逻辑运算。下面我们就来看一下二进制的运算：

7、二进制的四则运算

100001+111001=？（和十进制加法一样只是逢二进一即可）

1000011-111001=？（和十进制减法一样只是不够减，向前一位借，每次借2）

8、十进制转二进制的方法

这里我们只讨论能转换成的整数，不讨论小数。

我们以100转换成二进制为例来说，方法是用除二取余法，在开始这个方法前，我们先看一个例子：在小学数学的学习中，我们学过9/2=4----1，4我们称之为商（取整），1我们称之为余数。

除二取余法：依次除二求余直至最后为0，然后从下向上依次写下每次的余数组成新数。

示例：

十进制： 0 1 2 3 4 5 6 7 8 9

1 + 9 = 10(逢十进一）

二进制：0 1

10=1*2^2-1+0*2^1-1=2

4.3 八进制数

由于二进制数据的基R较小，所以二进制数据的书写和阅读不方便，为此，在小型机中引入了八进制。八进制的基R=8=2³，有数码0 1 2 3 4 5 6 7并且每个数码正好对应三位二进制数，所以八进制能很好的反映二进制。八进制用下标8或数据后面加上0表示。

例如：二进制数据（11 101 010. 010 110 100)₂对应的八进制数据为（3 5 2 . 2 6 4)₈或352.2640。

4.4 十六进制

由于二进制数在使用中位数太长，不容易记忆，所以又提出来了十六进制数。

十六进制数有两个基本特点：它由十六个字符0~9以及A、B、C、D、E、F组成（他们分别表示十进制数10~15），十六进制数运算规律是逢十六进一，即基R=16=2^4，通常在表示时用尾部标志H或下标16以示区别。

例如：十六进制数4AC8可写成（4AC8)₁₆，或者写成4AC8H。

4.5 八进制、十六进制转换为十进制

（10）8 = 1*8^2-1+ 0*8^1-1= 8

（4AC8）16 = 4*16^4-1+ 10*16^3-1+ 12*16^2-1+ 8*16^1-1= 16384 + 2560 + 192 + 8 = 19144

4.6 二进制数与十六进制数之间的转换

由于4位二进制数恰好有16个组合状态，即1位十六进制数与4位二进制数是一一对应的，所以，十六进制数与二进制输的转换是十分简单的。

4.6.1 十六进制数转换成二进制数

只要将每一位十六进制数用对应的4位二进制数替代即可一一简称四位一分。

例：将（4AF8B）₁₆转换为二进制数

解 4 A F 8 B

0100 1010 1111 1000 1011

4.6.2 二进制数转换为十六进制数

分别向左、向右每四位一组，依次写出每组4位二进制数所对应的十六进制数--简称四位合一位。

例：将二进制数（000111010110）₂转换为十六进制数

解 0001 1101 0110

1 D 6

所以（000111010110）₂=（1D6）₁₆

注意：转换时如果最后一组不足4位时必须加0补齐4位。

4.7 二进制与八进制互转

和二进制转十六进制相似，只是每三位二进制转成一位八进制，而一位八进制数转换成三位二进制数。

5 机器数与真值

在学习原码，反码和补码之前，我们需要先了解机器数和真值得概念。

5.1 机器数

一个数在计算机中的二进制表示形式，叫做这个数的机器数。机器数是带符号的，在计算机用一个数的最高位存放符号、正数为0，负数为1。

例：

十进制中的数 +3 ，计算机字长位8位，转换成二进制就是00000011；

如果是-3，就是100000011；

那么这里的00000011和10000011就是机器数。

5.2 真值

因为第一位是符号位，所以机器数的形式值就不等于真正的数值。例如上面的有符号数10000011，其最高位1代表负，其真正数值是-3，而不是形式值131（10000011转换成十进制等于131）。所以为区别起见，将带符号位的机器数对应的真正数值称为机器数的真值。

例： 0000 0001 的真值 = +0000 0001 = +1，1000 0001的真值 = -0000 0001 = -1。

6 原码、反码及补码

6.1 原码、反码及补码的由来

首先，因为人脑可以知道第一位是符号位，在计算的时候我们会根据符号位，选择对真值区域的加减，但是对于计算机，加减乘除已经是最基础的运算，要设计的尽量简单，计算机辨别“符号位”显然会让计算机的基础电路设计变得十分复杂。于是人们相出了将符号位也参与运算的方法。我们知道，根据运算法则减去一个正数等于加上一个负数，即：1 - 1 = 1 + （-1） = 0，所以机器可以只有加法而没有减法，这样计算机运算的设计就更简单了。

于是，人们为了将符号位参与运算，并且只保留加法，从而简化计算机运算，发明了原码、反码及补码。

原码、反码及补码都是有符号的用二进制表示数的方法，均由符号位和数值位构成。

6.2 原码

原码是符号位加上真值的绝对值，即用第一位表示符号，其余位表示值。比如如果是8位二进制：

[+1]原 = 0000 0001

[-1]原 = 1000 0001

第一位是符号位，其余7位时数值位。因为第一位是符号位，所以8位二进制数的取值范围就是：[1111 1111，0111 1111]即[-127，127]

原码是人脑最容易理解和计算的表示方式。

6.3 反码

反码的表示方法是：正数的反码是其本身负数的反码是在其原码的基础上，符号位不变，其余各位取反。

[+1] = [00000001]原 = [00000001]反

[-1] = [10000001]原 = [11111110]反

可见，如果一个反码表示的是负数，人脑无法直观的看出来它的数值，通常要将其转换成原码再计算。

6.4 补码

补码的表示方式是：正数的补码就是其本身，负数的补码是在其原码的基础上，符号位不变，其余各位取反，最后+1（即在反码的基础上+1）。

[+1] = [00000001]原 = [00000001]反 = [00000001]补

[-1] = [10000001]原 = [11111110]反 = [11111111]补

对于负数，补码表示方式也是人脑无法直观的看出其数值的，通常也需要转换成原码再计算其数值。

在计算机系统中，数值一律用补码来表示（存储）。主要原因：使用补码可以将符号位和其它位统一处理；同时，减法也可以按加法来处理。另外，两个用补码表示的数相加时，如果最高位（符号位）有进位，则进位被舍弃；补码与原码的转换过程几乎是相同的。

转载于:https://www.cnblogs.com/zhangiwei/p/8650194.html

aoyinmi9242

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
数据概述

数据知识1 认识数据的思想及意义现在的社会是一个高速发展的社会，科技发达，信息流通，人们之间的交流越来越密切，生活也越来越方便，大数据就是这个高科技时代的产物。阿里巴巴创办人马云去台演讲中就提到，未来的时代将不是IT时代，而是DT时代，DT就是Data Technology数据科技，显示大数据对于阿里巴巴集团来说举足轻重。有人把数据比喻为蕴含能量的煤矿，煤炭按...
复制链接

扫一扫