2020-12-22

《计算机与大数据技术应用》

第二章. 大数据技术概述

2.1 大数据技术的产生

2.1.1. 大数据的基本概念
大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
2.1.2. 大数据产生的原因
大多数的技术突破来源于实际的产品需要,大数据最初诞生于谷歌的搜索引擎中。随着web2.0时代的发展,互联网上数据量呈献爆炸式的增长,为了满足信息搜索的需要,对大规模数据的存储提出了非常强劲的需要。基于成本的考虑,通过提升硬件来解决大批量数据的搜索越来越不切实际,于是谷歌提出了一种基于…”
2.1.3. 大数据概念的提出
对于“大数据”(Big data)研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。
麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。 [3]
大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换而言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。 [4]
从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。 [1]
随着云时代的来临,大数据(Big data)也吸引了越来越多的关注。分析师团队认为,大数据(Big data)通常用来形容一个公司创造的大量非结构化数据和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。
大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。
最小的基本单位是bit,按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。
它们按照进率1024(2的十次方)来计算
2.1.4. 第四范式——大数据对科学研究产生的影响
随着信息技术的飞速发展,我们进入了大数据时代.由于数据体量的巨大,数据的结构多样,催生出先进的数据存储,移动和处理设备.大数据不仅用来描述数据量的巨大,同时先进的数据处理技术使得大数据具有高速性特征.另外,海量数据的混合,难免要包含众多半结构化或非结构化的数据,大数据的价值密度相较低一些.这篇论文基于大数据的上述特征,探究大数据对科学研究产生的影响. 这篇论文首先考察了大数据与科学研究的定义和本质,其次,对科学研究的产生和发展史做了简要概述,并总结出大数据与科学研究的相互关联性.这篇论文从科学研究的思维,对象,方法和功能四个角度进行分析.大数据下的科学研究是去因果而重相关的.过去限于技术条件,人们往往会把目光集中在精确的样本数据上,大数据的出现使得科学研究对象变得复杂多样,科学研究对象走进了"样本=全数据"的时代,复杂全数据下的科研对象更好的规避了样本偶然性的问题.掌握正确的科研方法对科研活动来讲是非常必要的事情,这篇论文从计算机图灵奖得主Jim Gray将科学研究划分为四个领域:经验科学,理论科学,计算科学和数据密集科学的归论中,探讨数据密集型科学研究的模式.庞大的数据体量使科学家们能够在短时间内获得过去几十年才可以收集到的数据信息,他们可以从一个宏观的角度去分析事物,一些科学规律有时也能够在庞大数据体量的条件下自发形成.该论文认为这些变化使得科学研究不仅在思维,对象和方法上产生变化,同时,大数据下科学研究的功能也有所改变,它打破了科学研究间的壁垒,达到信息互通有无,庞大的数据量使科学家们能够轻易的寻找到事物发展的规律,因而科学研究的功能更侧重于预测而非分析. 每一种事物必然有两面性,大数据下的科学研究存在着数据独裁,数据隐私和技术研发使用成本等局限的方面,这篇论文最后分析总结出大数据时代下科学研究发展的局限性,并做出思考和反思,提出相应对策,由此作为对为数不多的关于大数据的科技哲学研究方面的补充.
2.1.5. 云计算与大数据的关系
云计算和大数据能做什么,很多人都分不清楚,那么云计算与大数据的关系是什么呢?今天bai就给大家简单的分析一下。
云计算:云计算是通过互联网提供全球用户计算力、存储服务,为互联网信息处理提供硬件基础。云计算,简单说就是把你自己电脑里的或者公司服务器上的硬盘、CPU都放到网上,统一动态调用,现在比较有名的云计算服务商是亚马逊的AWS。
大数据:大数据运用日趋成熟的云计算技术从浩瀚的互联网信息海洋中获得有价值的信息进行信息归纳、检索、整合,为互联网信息处理提供软件基础。大数据,简单说,就是把所有的数据放到一起分析,找到关联,实现预测。这里的所有数据对应的是之前的抽样调研取得的部分数据。
云计算与大数据的关系:
云计算是基础,没有云计算,无法实现大数据存储与计算。大数据是应用,没有大数据,云计算就缺少了目标与价值。两者都需要人工智能的参与,人工智能是互联网信息系统有序化后的一种商业应用。这才是:云计算与大数据真正的出口!
而商业智能中的智能从何而来?方法之一就是通过大数据这个工具来对大量数据进行处理,从而得出一些关联性的结论,从这些关联性中来获得答案,因此,大数据是商业智能的一种工具。 而大数据要分析大量的数据,这对于系统的计算能力和处理能力要求是非常高的,传统的方式是需要一个超级计算机来进行处理,但这样就导致了计算能力空的时候闲着、忙的时候又不够的问题, 而云计算的弹性扩展和水平扩展的模式很适合计算能力按需调用,因此,云计算为大数据提供了计算能力和资源等物质基础。

2.2 大数据的4V特征

目前来说,大数据的特征还存在一定的争议。但按照普遍被接受的4V,即规模性(volume)、多样性(variety)、价值密度(value)和 高速性(velocity)进行描述。

1:数据量大(volume)

   非结构化数据的超大规模增长导致数据集合的规模不断扩大,数据单位已经从GB级到TB级再到PB级,甚至开始以EB和ZB来计数。

2:类型繁多(variety)

  大数据的类型不仅包括网络日志、音频、视频、图片、地理位置信息等结构化数据,还包括半结构化数据甚至是非结构化数据,具有异构性和多样性的特点。

3:价值密度低(value)

  大数据价值密度相对较低。如随着物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,存在大量不相关信息。因此需要对未来趋势与模式作可预测分析,利用机器学习、人工智能等进行深度复杂分析。而如何通过强大的机器算法更迅速地完成数据的价值提炼,是大数据时代亟待解决的难题。虽然单位数据的价值密度在不断降低,但是数据的整体价值在提高。

4:速度快时效高(velocity)

处理速度快,时效性要求高。需要实时分析而非批量式分析,数据的输入、处理和分析连贯性地处理,这是大数据区分于传统数据挖掘最显著的特征。

2.3 大数据的4V特征大数据的主要应用及行业推动力量

2.3.1 大数据的主要应用
一、电商行业, 电商行业是最早利用大数据进行精准营销,它根据客户的消费习惯提前生产资料、物流管理等,有利于精细社会大生产。由于电商的数据较为集中,数据量足够大,数据种类较多,因此未来电商数据应用将会有更多的想象空间,包括预测流行趋势,消费趋势、地域消费特点、客户消费习惯、各种消费行为的相关度、消费热点、影响消费的重要因素等。

二、金融行业,大数据在金融行业应用范围是比较广的,它更多应用于交易,现在很多股权的交易都是利用大数据算法进行,这些算法现在越来越多的考虑了社交媒体和网站新闻来决定在未来几秒内是买出还是卖出。

三、医疗行业, 医疗机构无论是病理报告、治愈方案还是药物报告等方面都是数据比较庞大行业,面对众多病毒、肿瘤细胞都处于不断进化的过程,诊断时会发现对疾病的确诊和治疗方案的确定是很困难的,而未来,我们可以借助大数据平台收集不通病例和治疗方案,以及病人的基本特征,可以建立针对疾病特点的数据库。

四、农牧渔,未来大数据应用到农牧渔领域,这样可以帮助农业降低菜贱伤农的概率,也可以精准预测天气变化,帮助农民做好自然灾害的预防工作,也能够提高单位种植面积的高产出;牧农也可以根据大数据分析安排放牧范围,有效利用农场,减少动物流失;渔民也可以利用大数据安排休渔期、定位捕鱼等,同时,也能减少人员损伤。

五、改善安全和执法,大数据现在已经广泛应用到安全执法的过程当中。想必大家都知道美国安全局利用大数据进行恐怖主义打击,甚至监控人们的日常生活。而企业则应用大数据技术进行防御网络攻击。警察应用大数据工具进行捕捉罪犯,信用卡公司应用大数据工具来槛车欺诈性交易。

2.3.2 企业推动大数据行业发展*

江西省第一批大数据试点示范企业申报开始

记者从江西省工信厅了解到,根据《江西省人民政府关于印发促进大数据发展实施方案的通知》、《江西省人民政府办公厅关于印发江西省大数据发展行动计划的通知》的总体要求,为培育大数据试点示范企业,推进大数据产业创新发展,省工信厅近日正组织开展第一批江西省大数据试点示范企业申报工作。

本次申报围绕大数据关键技术产品研发及产业化、基础设施建设及运营服务、重点领域行业应用3个方面,遴选一批大数据试点示范企业。通过重点培育和支持,形成一批大数据先进技术、产品、模式,并以此为标杆,通过示范引领,形成较为完整的大数据产业体系,促进产业链企业协同发展,推动大数据与实体经济深度融合,推进全省大数据产业高质量跨越式发展。

据了解,试点示范企业申报主体需为在江西省内注册,具有独立法人资格的企业、江西省登记的事业单位法人以及在江西纳税的电信运营商省级分支机构。为面向从事大数据采集存储、分析挖掘、应用服务、安全保护等环节的软件及信息服务企业、电信运营商、制造业及生产性服务业企业,有关科研院所等事业单位,具备大数据相关能力,在主要业务领域具有较强的实力,技术先进,应用推广效果好,并能产生良好的社会经济效益。

符合条件的申报主体按属地原则自愿向所在设区市工信局、大数据局、信息化主管部门(以下简称“推荐单位”)提交申报材料。其中,2017年以来省工信厅已支持的省级工业转型升级大数据方向的企事业单位只需填写《江西省大数据试点示范企业申报表》并附有关企业和项目的最新进展和上线运营效果情况。由推荐单位进行初审,将初审合格、确认推荐的申报主体按优先顺序于2019年11月15日前汇总报省工信厅,并正式行文。申报材料、推荐汇总表及推荐文要求以电子PDF版形式提交。

据悉,省工信厅将组织专家对被推荐的申报单位进行审核和综合评价,必要时进行实地核实,进行综合性评审。从大数据应用基础、可持续来源、分析处理能力、应用案例效果等方面总结经验,加强应用推广。

2.3.3 我国政府推动大数据行业发展

2014年,大数据首次写入政府工作报告,大数据逐渐成为各级政府关注的热点,政府数据开放共享、数据流通与交易、利用大数据保障和改善民生等概念深入人心。

2015年7月,国务院印发《关于运用大数据加强对市场主体服务和监管的若干意见》,运用大数据加强对市场主体服务和监管,明确时间表。

2015年9月,国务院印发《促进大数据发展行动纲要》(以下简称《纲要》),系统部署了我国大数据发展工作,至此,大数据成为国家级的发展战略。

《纲要》提出,要加强顶层设计和统筹协调,大力推动政府信息系统和公共数据互联开放共享,加快政府信息平台整合,消除信息孤岛,推进数据资源向社会开放,增强政府公信力,引导社会发展,服务公众企业;以企业为主体,营造宽松公平环境,加大大数据关键技术研发、产业发展和人才培养力度,着力推进数据汇集和发掘,等等。

2017年1月,工信部编制印发《大数据产业发展规划(2016-2020年)》。发展目标:到2020年,技术先进、应用繁荣、保障有力的大数据产业体系基本形成。大数据相关产品和服务业务收入突破1万亿元,年均复合增长率保持30%左右,加快建设数据强国,为实现制造强国和网络强国提供强大的产业支撑。

培育10家国际领先的大数据核心龙头企业和500家大数据应用及服务企业。形成比较完善的大数据产业链,大数据产业体系初步形成。建设10-15个大数据综合试验区,创建一批大数据产业集聚区,形成若干大数据新型工业化产业示范基地。

2017年9月,公安部印发《关于深入开展“大数据+网上督察”工作的意见》,要求到2018年底,全国各级公安机关要完成网上督察系统优化升级,实现全警种数据对网上督察系统的开放共享,满足“大数据+网上督察”需要。到2020年底,建成基于公安云计算平台的全国公安机关警务督察一体化应用平台,相关运行机制进一步健全完善,警务督察部门的动态监督和预警预测能力进一步提升。

2018年7月,工信部印发《推动企业上云实施指南(2018-2020年)》明确,到2020年,力争实现企业上云环境进一步优化,行业企业上云意识和积极性明显提高,上云比例和应用深度显著提升,云计算在企业生产、经营、管理中的应用gjjs广泛普及,全国新增上云企业100万家,形成典型标杆应用案例100个以上,形成一批有影响力、带动力的云平台和企业上云体验中心。

2.4 大数据的关键技术

大数据技术,就是从各种类型的数据中快速获得有价值信息的技术。大数据领域已经涌现出了大量新的技术,它们成为大数据采集、存储、处理和展现的有力武器。
一、大数据接入
1、大数据接入
已有数据接入、实时数据接入、文件数据接入、消息记录数据接入、文字数据接入、图片数据接入、视屏数据接入
2、大数据接入技术
Kafka、ActiveMQ、ZeroMQ、Flume、Sqoop、Socket(Mina、Netty)、ftp/sftp
二、大数据存储
1、大数据存储
结构化数据存储、半结构化数据存储、非结构化数据存储
2、大数据存储技术
Hdfs、Hbase、Hive、S3、Kudu、MongoDB、Neo4J 、Redis、Alluxio(Tachyon)、Lucene、Solr、ElasticSearch
三、数据分析挖掘
1、大数据分析与挖掘
离线分析、准实时分析、实时分析、图片识别、语音识别、机器学习
2、大数据分析与挖掘技术
MapReduce、Hive、Pig、Spark、Flink、Impala、Kylin、Tez、Akka、Storm、S4、Mahout、MLlib

四、大数据共享交换
1、大数据共享交换
数据接入、数据清洗、转换、脱敏、脱密、数据资产管理、数据导出
2、大数据共享交换技术
Kafka、ActiveMQ、ZeroMQ、Dubbo、Socket(Mina、Netty)、ftp/sftp、RestFul、Web Service
五、大数据展现
1、大数据展现
图化展示(散点图、折线图、柱状图、地图、饼图、雷达图、K线图、箱线图、热力图、关系图、矩形树图、平行坐标、桑基图、漏斗图、仪表盘),文字展示;
2、大数据展现技术
Echarts、Tableau
国家规划大数据产业发展战略,各行各业需要大数据技术支撑指数级的数据增量服务,越来越多的企业逐渐转型于大数据,大数据方面市场需求呈爆发式增长。

2.5 典型的大数据计算构架

数据分析工作虽然隐藏在业务系统背后,但是具有非常重要的作用,数据分析的结果对决策、业务发展有着举足轻重的作用。随着大数据技术的发展,数据挖掘、数据探索等专有名词曝光度越来越高,但是在类似于Hadoop系列的大数据分析系统大行其道之前,数据分析工作已经经历了长足的发展,尤其是以BI系统为主的数据分析,已经有了非常成熟和稳定的技术方案和生态系统,对于BI系统来说,大概的架构图如下:

可以看到在BI系统里面,核心的模块是Cube,Cube是一个更高层的业务模型抽象,在Cube之上可以进行多种操作,例如上钻、下钻、切片等操作。大部分BI系统都基于关系型数据库,关系型数据库使用SQL语句进行操作,但是SQL在多维操作和分析的表示能力上相对较弱,所以Cube有自己独有的查询语言MDX,MDX表达式具有更强的多维表现能力,所以以Cube为核心的分析系统基本占据着数据统计分析的半壁江山,大多数的数据库服务厂商直接提供了BI套装软件服务,轻易便可搭建出一套Olap分析系统。不过BI的问题也随着时间的推移逐渐显露出来:

BI系统更多的以分析业务数据产生的密度高、价值高的结构化数据为主,对于非结构化和半结构化数据的处理非常乏力,例如图片,文本,音频的存储,分析。
由于数据仓库为结构化存储,在数据从其他系统进入数据仓库这个东西,我们通常叫做ETL过程,ETL动作和业务进行了强绑定,通常需要一个专门的ETL团队去和业务做衔接,决定如何进行数据的清洗和转换。
随着异构数据源的增加,例如如果存在视频,文本,图片等数据源,要解析数据内容进入数据仓库,则需要非常复杂等ETL程序,从而导致ETL变得过于庞大和臃肿。
当数据量过大的时候,性能会成为瓶颈,在TB/PB级别的数据量上表现出明显的吃力。
数据库的范式等约束规则,着力于解决数据冗余的问题,是为了保障数据的一致性,但是对于数据仓库来说,我们并不需要对数据做修改和一致性的保障,原则上来说数据仓库的原始数据都是只读的,所以这些约束反而会成为影响性能的因素。
ETL动作对数据的预先假设和处理,导致机器学习部分获取到的数据为假设后的数据,因此效果不理想。例如如果需要使用数据仓库进行异常数据的挖掘,则在数据入库经过ETL的时候就需要明确定义需要提取的特征数据,否则无法结构化入库,然而大多数情况是需要基于异构数据才能提取出特征。
在一系列的问题下,以Hadoop体系为首的大数据分析平台逐渐表现出优异性,围绕Hadoop体系的生态圈也不断的变大,对于Hadoop系统来说,从根本上解决了传统数据仓库的瓶颈的问题,但是也带来一系列的问题:

从数据仓库升级到大数据架构,是不具备平滑演进的,基本等于推翻重做。
大数据下的分布式存储强调数据的只读性质,所以类似于Hive,HDFS这些存储方式都不支持update,HDFS的write操作也不支持并行,这些特性导致其具有一定的局限性。
基于大数据架构的数据分析平台侧重于从以下几个维度去解决传统数据仓库做数据分析面临的瓶颈:

分布式计算:分布式计算的思路是让多个节点并行计算,并且强调数据本地性,尽可能的减少数据的传输,例如Spark通过RDD的形式来表现数据的计算逻辑,可以在RDD上做一系列的优化,来减少数据的传输。
分布式存储:所谓的分布式存储,指的是将一个大文件拆成N份,每一份独立的放到一台机器上,这里就涉及到文件的副本,分片,以及管理等操作,分布式存储主要优化的动作都在这一块。
检索和存储的结合:在早期的大数据组件中,存储和计算相对比较单一,但是目前更多的方向是在存储上做更多的手脚,让查询和计算更加高效,对于计算来说高效不外乎就是查找数据快,读取数据快,所以目前的存储不单单的存储数据内容,同时会添加很多元信息,例如索引信息。像类似于parquet和carbondata都是这样的思想。
总的来说,目前围绕Hadoop体系的大数据架构大概有以下几种:

传统大数据架构

​之所以叫传统大数据架构,是因为其定位是为了解决传统BI的问题,简单来说,数据分析的业务没有发生任何变化,但是因为数据量、性能等问题导致系统无法正常使用,需要进行升级改造,那么此类架构便是为了解决这个问题。可以看到,其依然保留了ETL的动作,将数据经过ETL动作进入数据存储。

优点:简单,易懂,对于BI系统来说,基本思想没有发生变化,变化的仅仅是技术选型,用大数据架构替换掉BI的组件。

缺点:对于大数据来说,没有BI下如此完备的Cube架构,虽然目前有kylin,但是kylin的局限性非常明显,远远没有BI下的Cube的灵活度和稳定度,因此对业务支撑的灵活度不够,所以对于存在大量报表,或者复杂的钻取的场景,需要太多的手工定制化,同时该架构依旧以批处理为主,缺乏实时的支撑。

适用场景:数据分析需求依旧以BI场景为主,但是因为数据量、性能等问题无法满足日常使用。

流式架构

在传统大数据架构的基础上,流式架构非常激进,直接拔掉了批处理,数据全程以流的形式处理,所以在数据接入端没有了ETL,转而替换为数据通道。经过流处理加工后的数据,以消息的形式直接推送给了消费者。虽然有一个存储部分,但是该存储更多的以窗口的形式进行存储,所以该存储并非发生在数据湖,而是在外围系统。

优点:没有臃肿的ETL过程,数据的实效性非常高。

缺点:对于流式架构来说,不存在批处理,因此对于数据的重播和历史统计无法很好的支撑。对于离线分析仅仅支撑窗口之内的分析。

适用场景:预警,监控,对数据有有效期要求的情况。

Lambda架构

Lambda架构算是大数据系统里面举足轻重的架构,大多数架构基本都是Lambda架构或者基于其变种的架构。Lambda的数据通道分为两条分支:实时流和离线。实时流依照流式架构,保障了其实时性,而离线则以批处理方式为主,保障了最终一致性。什么意思呢?流式通道处理为保障实效性更多的以增量计算为主辅助参考,而批处理层则对数据进行全量运算,保障其最终的一致性,因此Lambda最外层有一个实时层和离线层合并的动作,此动作是Lambda里非常重要的一个动作,大概的合并思路如下:

优点:既有实时又有离线,对于数据分析场景涵盖的非常到位。

缺点:离线层和实时流虽然面临的场景不相同,但是其内部处理的逻辑却是相同,因此有大量荣誉和重复的模块存在。

适用场景:同时存在实时和离线需求的情况。

Kappa架构

​ Kappa架构在Lambda 的基础上进行了优化,将实时和流部分进行了合并,将数据通道以消息队列进行替代。因此对于Kappa架构来说,依旧以流处理为主,但是数据却在数据湖层面进行了存储,当需要进行离线分析或者再次计算的时候,则将数据湖的数据再次经过消息队列重播一次则可。

优点:Kappa架构解决了Lambda架构里面的冗余部分,以数据可重播的超凡脱俗的思想进行了设计,整个架构非常简洁。

缺点:虽然Kappa架构看起来简洁,但是施难度相对较高,尤其是对于数据重播部分。

适用场景:和Lambda类似,改架构是针对Lambda的优化。

Unifield架构

​以上的种种架构都围绕海量数据处理为主,Unifield架构则更激进,将机器学习和数据处理揉为一体,从核心上来说,Unifield依旧以Lambda为主,不过对其进行了改造,在流处理层新增了机器学习层。可以看到数据在经过数据通道进入数据湖后,新增了模型训练部分,并且将其在流式层进行使用。同时流式层不单使用模型,也包含着对模型的持续训练。

优点:Unifield架构提供了一套数据分析和机器学习结合的架构方案,非常好的解决了机器学习如何与数据平台进行结合的问题。

缺点:Unifield架构实施复杂度更高,对于机器学习架构来说,从软件包到硬件部署都和数据分析平台有着非常大的差别,因此在实施过程中的难度系数更高。

适用场景:有着大量数据需要分析,同时对机器学习方便又有着非常大的需求或者有规划。

  • 0
    点赞
  • 0
    评论
  • 0
    收藏
  • 一键三连
    一键三连
  • 扫一扫,分享海报

©️2021 CSDN 皮肤主题: 深蓝海洋 设计师:CSDN官方博客 返回首页
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值