第一章 大数据概述(笔记)

大数据概述

*以下为个人上课后的笔记记录

数据是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合,是可识别的、抽象的符号

数据和信息是两个不同的概念,信息是较为宏观的概念,它由数据的有序排列组合而成,传达给读者某个概念方法等,而数据则是构成信息的基

本单位,离散的数据没有任何实用价值

数据类型:文本 图片 音频视频

数据组织形式:文件 计算机系统中的很多数据都是以文件形式存在的,比如一个WORD文件、一个文本文件,一个网页文件、一个图片文件等

数据库:数据库己经成为计算机软件开发的基础和核心,数据库在人力资

源管理、固定资产管理、制造业管理、电信管理、销售管理、股市管理、图书馆管理、政务管理等领域发挥着至关重要的作用

随着Web2.0的兴起,非结构化数据迅速增加,目前人类社会产生的数字内容中有90%是非结构化数据,因此,能够更好支持非结构化数据管理的NoSQL数据库应运而生

数据生命周期:(过程)创建—修改—发布利用—归档/销毁

数据生命周期管理

分类:对数据进行自动分类,分离出有效的数据,对不同类型数据制定不同的管理策略,并及时清理无用的数据

存储:构建分层的存储系统,满足不同类型的数据对不同生命周期阶段的存储要求,对关键数据进行数据备份保护,对处于生命周期末期的数据进行归档并保存到适合长期保存数据的存储设备中

管理:根据不同的数据管理策略,实施自动分层数据管理,即自动把不同生命周期阶段的数据存放在最合适的存储设备上,提高数据可用性和管理效率

数据使用:(三步)

数据清洗 数据管理 数据分析

数据清洗:任何数据分析计划的第—步就是数据清洗,也就是把数据变成一个可用的状态。这个过程需要借助于工具去实现数据转换,比如古老的Unix工具AWK、XML解析器和机器学习库等,此外,脚本语言,比如Perl和Python,也可以在这个过程发挥重要的作用。完成数据的解析,就要开始关注数据的质量。对于来源众多、类型多样的数据而言,数据缺失和语义模糊等问题是不可避免的,必须采取措施解决

数据管理:数据经过清洗以后,被存放到数据库系统中进行管理和使用。从上个世纪70年代开始,关系型数据库提供SQL语句进行各种查询操作,同时支持事务一致性功能,很好地满足了各种商业应用需求,但随着Web2.0应用的不断发展,非结构化数据开始迅速增加,对于大规模非结构化数据则暴露了很多难以克服的问题,NoSQL数据库的出现,有效满足对非结构化数据进行管理的市场需求,并得到了非常迅速的

数据分析:存储数据是为了分析数据,分析数据需借助于数据挖掘和机器学习算法和使用相关大数据处理技术Google提出了面向大规模数据分析的分布式编程模型MapReduce,Hadoop对其进行了开源实现

数据使用的实例:数据仓库

数据的价值性:数据的价值根本在于可以为人们找出答案。数据往往都是为了某个特定的目的而被收集,而数据的价值对于数据收集者而言,价值都是显而易见的。数据的价值是不断被人发现

数据的价值不会因为不断被使用而削减,反而会因为不断重组而产生更大的价值

在大数据时代以前,最有价值的商品是石油,而今天和末来则是数据。目前占有大量数据的谷歌亚马逊等全球前五大公司, 每个季度的利润总和高达数十亿美元,并在继续快速增加,这都是数据价值的最好佐证。因此,要实现大数据时代思维方式的转变,就心须要正确认识数据的价值,数据己经具备了资本的属性,可以用来创造经济价值

数据爆炸:

人类进入信息社会以后,数据以自然方式增长,其产生不以人的意志为转移从1986年开始到2010年的20年时间里,全球数据的数量增长了100倍,今后的数据量增长速度将更快,我们正生活在一个“数据爆炸〞 的时代,今天,世界上只有25%的设备是联网的,在联网设备中大约80%是电脑和手机,而在将来,随着移动通信5G时代的全面开启,将有更多的用户成为网民,汽车、电视、家用电器、生产机器等各种设备也将联入互联网。随着Web2.0和移动互联网的快速发展,人们已经可以随时随地、随心所欲发布包括博客、微博、微信、抖音等在内的各种信息

成为大数据时代的鲜明特征

数据爆炸对科学研究提出更高要求,需要设计出更加灵活高效的数据存储、处理和分析工具,应对大数据时代的挑战,必将带来云计算、数据仓库、数据挖掘等技术和应用的提升或者根本性改变

在存储效率领域:需要实现低成本的大规模分布式存储

在网络效率方面:需要实现及时响应的用户体验

在数据中心方面:需要开发绿色节能新一代数据中心,在有效响应大数据处理需求的同时,实现最大化资源利用率、最小化系统能耗的目标

三次信息化浪潮:

第一次:1980年前后,标志-个人计算机,解决问题-信息处理,代表企业:Intel AMD IBM 苹果 微软 联想 戴尔 惠普等

第二次:1995年前后,标志-互联网,解决问题-信息传输,代表企业-雅虎 谷歌 阿里巴巴 百度 腾讯等

第三次:2010年前后,标志-物联网,云计算和大数据,解决问题-信息爆炸,代表企业-将涌现出一批新的市场标杆企业

信息科技为大数据时代提供技术支撑:

技术支撑三类

①存储设备:其容量不断增加,速度越来越快,价格越来越低。以闪存为代表的新型存储介质也开始得到大规模的普及和应用。闪存具有体积小,质量轻,能耗低,抗震性好等优良特性

②CPU计算能力:CPU处理能力大幅提升

③网络宽带:其不断增加,以我国为例,截至2018年第一季度末,我国光纤宽带用户在固定宽带用户中占比达85.3%,已超越多年宽带发展世界领先的日韩等国,居全球第一。目前移动通信4G基站数量也已接近340万,我国4G网络规模全球第一。2019年5G网络时代被三大运营商提上日程,我国正加速进入5G时代

数据产生方式的变革促成大数据时代的来临

运营式系统阶段:•数据厍的出现使得数据管理的复杂度大大降低,数据往往伴随着一定的运营活动而产生并记录在数据库中,数据的产生方式是被动的

用户原创内容阶段:互联网的出现,使得数据传播更加快捷,不需要借助于磁盘、磁带等物理存储介质传播数据,网页的出现进一步加速了大量网络内容的产生,从而使得人类社会数据量开始呈现“井喷式”增长。但,互联网真正的数据爆发产生于以“用户原创内容〞为特征的Web 2.0时代

•数据爆发产生于Web 20 时代,而Web 2.0的最重要标志就是用户原创

内容

•智能手机等移动设备加速内容产生

•数据产生方式是主动的

感知式系统阶段:物联网 (IOT)实现万物互联

•感知式系统的广泛使用

•人类社会数据量第三次大的飞跃最终导致了大数据的产生

大数据的发展历程:

第一阶段:萌芽期:上世纪90年代

至本世纪初,随着数据挖掘理论和数据库技术的逐步成熟,一批商业智能工具和知识管理技术开始被应用,如数据仓库、专家系统、知识管理系统等

第二阶段:成熟期:本世纪前十年,Web2.0应用迅猛发展,非结构化数据大量产生,传统处理方法难以应对,带动了大数据技术的快速突破,大数据解决方案逐渐走向成熟,形成了并行计算与分布式系统两大核心技术,谷歌的GFS和MapReduce等大数据技术受到追捧,Hadoop平台开始大行其道

第三阶段:大规模应用期:2010年以后,大数据应用渗透各行各业,数据驱动决策,信息社会智能化程度大幅提高

3V:容量,丰富性,速度 作为定义大数据的三个维度

世界各国的大数据发展战略

大数据概念

四个特点:数据量大、数据类型繁多、处理速度快、价值密度低

数据量大

根据IDC发布报告人类社会数据每年50%的速度,每两年就增长一倍

大数据摩尔定律:近两年产生数据量 = 之前产生所有数据总量之和;预测到了2020年。全球将会有35ZB数据量

举例

数据类型繁多

大数据时代的数据的速度是非常迅速的。大数据时代,很多应用都需要基于快速生成数据,给出实时的分析结果,然后用结果来指导生产、生活、实践。因此,数据处理和分析的速度通常会达到秒级甚至毫秒级响应。

一秒定律:从数据生成到决策响应仅需一秒

很多有价值的数据分散在海量数据中

Eg.街边很多摄像头每分每秒都在记录(海量数据),只有事件出现的时候,仅某个片段有价值。

某平台需建立数据库(投入几百w),从中搜索有价值信息(盈利几十w),投入高回报低

都反映了大数据价值密度低

大数据影响

对科学研究、社会发展、就业市场、人才培养四个方面有影响。

大数据最根本的价值在于为人类提供了认识复杂系统的新思维和新手段

科学研究

实验 - 理论 - 计算-数据

实验:在最初的科学研究阶段,人类采用实验来解决一些科学的问题.

理论:由于实验又是会受到条件限制,比较难以完成对自然现象精准的理解。随着科学的进步,我们人类开始采用各种数学、几何、物理等等理论来构建问题的模型和解决的方案。很大程度上推动人类的进步与发展

计算:计算机具有存储容量大、运行速度快、精度高、可重复执行等特点,极大推进了人类社会的发展。

数据:物联网和云计算的出现了,更是促成了事物发展,从量变到质变的转变使得人类社会开启了全新的大数据时代。大数据时代以数据为中心。

社会发展

就业市场

人才培养

大数据的应用:

社会各行各业都已经融入了大数据的印迹

大数据产业

是指一切与支撑大数据组织管理和价值发现相关的企业经济活动的集合。

目前,我国己形成中西部地区、环渤海地区、珠三角地区、长三角地区、东北地区五个大数据产业区。在政府管理、工业升级转型、金融创新、医疗保健等领域,大数据行业应用已逐步深入。一些地方政府也在积极尝试以“大数据产业园“为依托,加快发展本地的大数据产业。大数据产业园是大数据产业的聚集区或大数据技木的产业化项目孵化区,是大数据企业的瓶化平合以及大数语企业走向产业化道路的集中区域。比如,位于福建省泉州市安溪县龙门镇的中国国际信息技术

(福建)产业园,于2015年5月建成投入运营,是福建省第一个大数据产业园区,致力于以国际最高等级第三方数据中心为核心 ,构建以信息技术服务外包为主的绿色生态产业链,打造集数据中心、安全管理、云服务、电子商务、数字金融、信息技术教育、国际交流、投融资环境等功能为一体,覆盖福建、辐射海西的国际一流高科技信息技术产业园区。

  • 14
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

静琳同学在学习

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值