定义
摩尔定律:
摩尔定律是由英特尔(Intel)创始人之一戈登·摩尔(Gordon Moore)提出来的。其内容为:当价格不变时,集成电路上可容纳的元器件的数目,约每隔18-24个月便会增加一倍,性能也将提升一倍。换言之,每一美元所能买到的电脑性能,将每隔18-24个月翻一倍以上。这一定律揭示了信息技术进步的速度。
数据:
数据(data)是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加工的的原始素材。
数据是信息的表现形式和载体,可以是符号、文字、数字、语音、图像、视频等。数据和信息是不可分离的,数据是信息的表达,信息是数据的内涵。数据本身没有意义,数据只有对实体行为产生影响时才成为信息。
数据可以是连续的值,比如声音、图像,称为模拟数据。也可以是离散的,如符号、文字,称为数字数据。
在计算机系统中,数据以二进制信息单元0,1的形式表示。
数据的本质:
数据的本质是生产资料和资产。
数据不再是社会生产的“副产物”,而是可被二次乃至多次加工的原料,从中可以探索更大价值,它变成了生产资料。
大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据就是“未来的新石油”。
云计算:
云计算是一个方便灵活的计算模式,它是按需、可通过网络进行访问和使用的计算资源的共享池(例如:网络、服务器、存储、应用程序服务),它以用最少的管理付出,与服务供应商有最少的交互的前提下,可以达到将各种计算资源迅速地配置和推出。
大数据:
大数据(big data)是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。从某种程度上说,大数据是数据分析的前沿技术。
5V特征:
- 数据规模大(Volume)
从TB跃升到PB甚至EB。
- 数据类型多(Variety)
越来越多非结构化数据;音频、视频,地理位置信息等多类型数 据对数据处理能力提出更高要求。
- 数据价值高,价值密度低(Value)
海量数据带来了巨大的商业价值。数 据之间关联性支持深层的数据挖掘。
- 数据处理速度快(Velocity)
对数据实时处理有着极高的要求, 通过传统数据库查询方式得到的 “当前结果”很可能已经没有价值。
- 数据是真实的(veracity)
课上习题:
大数据时代,用户产生内容指的是(UGC–user generate content)
(回归分析)是确定两种及以上变量间相互依赖的定量关系的一种统计分析方法
百年一见的事比习以为常的事信息熵大
用信息增益度来度量熵的(降低)程度
决策树中每个(叶节点)代表一种可能的分类结果
ID3算法使用(信息增益度)选择测试属性