数据共享与整合技术-总结01

数据共享与整合技术 专栏收录该内容
7 篇文章 2 订阅

一、大数据原理-大数据定义

总结问题:

1.大数据的定义

2.大数据和小数据的区别

3.大数据的应用场景和目的

大数据的定义

    大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

大数据可以用4个V来定义:

容量(Volume):数据题体量大

种类(Variety):数据类型的多样性,包括传统数据库、图像、文件和其他复杂的记录

速度(Velocity):指获得数据的速度

价值(Value):指价值密度低

大数据VS小数据

目标

小数据―常用来回答某个特定问题或服务于某个特定目标。

大数据―通常在思想上围绕一个目标而设计,但这个目标是可变的,摆出的问题也是千变万化的

地点

小数据―通常,小数据属于某个机构,常常存储在某台电脑中,有时也会存储在某个文件夹中。

大数据―通常通过电子空间传输,被分配到多个网络服务器上,存在于地球的任何地方。

数据结构和内容

小数据―通常包含高度结构化的数据,数据域被限制在某个单一的学科或分支学科之内。这些数据通常来自一个顺序电子表格,其记录格式是统一的。

大数据―必须有吸收非结构化数据的能力(如自由文本、图像、视频、音频、实体对象等)。数据源的内容也许跨多个学科,而其中每个独立的数据对象又有可能与其他大数据资源的数据相关联。

数据准备

    小数据―在很多情况下,数据使用者从其个人的目的出发准备数据。

    大数据―数据来自众多多样化的数据源,并由很多人来准备。数据的使用者很少是该数据的准备者。

寿命

    小数据―当数据项目结束时,小数据保存的时间有限(很少超过研究数据的传统学术寿命,即大概7年),然后被擦除。

    大数据―大数据项目使用的数据通常需要永久保存。理想情况下,当原始资源寿命结束时,存储在大数据资源中的数据将被吸收到另一个资源池中。很多大数据项目累积的数据会延伸到未来和过去(例如遗留数据)。

测量

    小数据―通常小数据使用一个实验协议来进行测量,且该数据可由某个标准单元集描述。

    大数据―众多不同类型的数据以多种不同的电子格式传输着。当数据可测量时,测量结果可通过多种协议获取。对数据管理者而言,确定大数据的质量是最困难的任务之一。

再现性

    小数据―小数据项目通常情况下是重复的。如果有关于数据质量的问题,或对数据再现性、从数据中得到的结论的正确性有疑问,那么整个项目可被重现,并产生新的数据集。

    大数据―通常复制大数据几乎是不可行的。在多数情况下,人们希望能够在大数据资源中发现坏数据并进行标记等。

风险

小数据―小数据项目的开销是有限的,实验室和研究机构往往能够从偶然的小数据失败中恢复过来。

大数据―大数据项目会非常昂贵。一个大数据项目的失败会导致公司破产、机构崩塌、大规模解雇员工以及存储在资源中的所有数据的瞬间瓦解。

内省

小数据―独立的数据点由它们在数据表或数据库中的行和列的位置识别。如果知道行和列的表头,那么就可以找到和列举其中包含的全部数据。

大数据―除非大数据资源可以如预期的那样设计良好,否则即便是数据管理员也难以理解大数据资源的内容和组织形式。要获取数据、掌握数据价值信息和数据组织信息,需通过内省技术才能达成。

分析

小数据―大多数情况下,项目中的所有数据可同时进行全部分析。

大数据―无论是在超级计算机中还是在多个计算机中并行进行的大数据分析几乎都需要一步步递增式完成。这些数据需经过多种方法进行提取、查看、删减、标准化、转换、可视化、释义和再分析等操作。

大数据的使用场景及目的:

制造业

利用工业大数据提升制造业水平,包括产品故障诊断与预测、分析工艺流程、改进生产工艺,优化生产过程能耗、工业供应链分析与优化、生产计划与排程。

金融行业

大数据在高频交易、社交情绪分析和信贷风险分析三大金融创新领域发挥重大作用。

汽车行业

利用大数据和物联网技术的无人驾驶汽车,在不远的未来将走入我们的日常生活。

互联网行业

借助于大数据技术,可以分析客户行为,进行商品推荐和针对性广告投放。

电信行业

利用大数据技术实现客户离网分析,及时掌握客户离网倾向,出台客户挽留措施。

能源行业

随着智能电网的发展,电力公司可以掌握海量的用户用电信息,利用大数据技术分析用户用电模式,可以改进电网运行,合理设计电力需求响应系统,确保电网运行安全。

物流行业

利用大数据优化物流网络,提高物流效率,降低物流成本。

城市管理

可以利用大数据实现智能交通、环保监测、城市规划和智能安防。

生物医学

大数据可以帮助我们实现流行病预测、智慧医疗、健康管理,同时还可以帮助我们解读DNA,了解更多的生命奥秘。

体育娱乐

大数据可以帮助我们训练球队,决定投拍哪种题财的影视作品,以及预测比赛结果。

安全领域

政府可以利用大数据技术构建起强大的国家安全保障体系,企业可以利用大数据抵御网络攻击,警察可以借助大数据来预防犯罪。

个人生活

大数据还可以应用于个人生活,利用与每个人相关联的“个人大数据”,分析个人生活行为习惯,为其提供更加周到的个性化服务。

二、大数据原理-Hadoop

总结:

掌握结构化和非结构化数据

掌握Hadoop核心组件

了解Hadoop特点

简单了解MapReduce算法

结构化数据

结构化数据,简单来说就是数据库。基本包括高速存储应用需求、数据备份需求、数据共享需求以及数据容灾需求。结构化数据也称作行数据,是由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理。

非结构化数据

非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片、XML, HTML、各类报表、图像和音频/视频信息等等。

对比:

结构化数据由明确定义的数据类型组成,其模式可以使其易于搜索。而非结构化数据通常由不容易搜索的数据组成,其中包括音频、视频和社交媒体发布等格式。

除了存储在关系数据库和存储在一个关系数据库之外的明显区别之外,最大的区别在于分析结构化数据与非结构化数据的便利性。针对结构化数据存在成熟的分析工具,但用于挖掘非结构化数据的分析工具正处于萌芽和发展阶段。

用户可以通过文本非结构化数据运行简单的内容搜索。

非结构化数据比结构化数据要多得多。

NoSQL(NoSQL = Not Only SQL ),意即“不仅仅是SQL”,泛指非关系型的数据库。

NoSQL数据库的四大分类

分类

Examples举例

典型应用场景

数据模型

优点

键值(key-value

Tokyo Cabinet/Tyrant, Redis, Voldemort, Oracle BDB

内容缓存,主要用于处理大量数据的高访问负载,也用于一些日志系统等等。

Key 指向 Value 的键值对,通常用hash table来实现

查找速度快

列存储数据库

Cassandra, HBase, Riak

分布式的文件系统

以列簇式存储,将同一列数据存在一起

查找速度快,可扩展性强,更容易进行分布式扩展

文档型数据库

CouchDB, MongoDb

Web应用(与Key-Value类似,Value是结构化的,不同的是数据库能够了解Value的内容)

Key-Value对应的键值对,Value为结构化数据

数据结构要求不严格,表结构可变,不需要像关系型数据库一样需要预先定义表结构

图形(Graph)数据库

Neo4J, InfoGrid, Infinite Graph

社交网络,推荐系统等。专注于构建关系图谱

图结构

利用图结构相关算法。比如最短路径寻址,N度关系查找等

Hadoop是什么:

Apache Hadoop项目开发的用于可靠、可扩展、分布式计算的开源软件。

解决问题:

海量数据的存储(HDFS)

海量数据的分析(MapReduce)

资源管理调度(YARN)

作者:Doug Cutting

受Google三篇论文的启发(GFS、MapReduce、BigTable)

Hadoop具体能干什么:

hadoop擅长日志分析,facebook就用Hive来进行日志分析,2009年时facebook就有非编程人员的30%的人使用HiveQL进行数据分析;淘宝搜索中的自定义筛选也使用的Hive;利用Pig还可以做高级的数据处理,包括微信、LinkedIn 上用于发现您可能认识的人,可以实现类似Amazon.com的协同过滤的推荐效果。淘宝的商品推荐也是!在Yahoo!的40%的Hadoop作业是用pig运行的,包括垃圾邮件的识别和过滤,还有用户特征建模。

Hadoop核心组件:

HDFS: Hadoop Distributed File System 分布式文件系统

YARN: Yet Another Resource Negotiator 资源管理调度系统

HDFS的架构

主从结构

主节点,只有一个: namenode

从节点,有很多个: datanode

namenode负责:

接收用户操作请求

维护文件系统的目录结构

管理文件与block之间关系,block与datanode之间关系

datanode负责:

存储文件

文件被分成block存储在磁盘上

为保证数据安全,文件会有多个副本

Hadoop的特点:

扩容能力(Scalable):能可靠地(reliably)存储和处理千兆字节(PB)数据。

成本低(Economical):可以通过普通机器组成的服务器群来分发以及处理数据。这些服务器群总计可达数千个节点。

高效率(Efficient):通过分发数据,hadoop可以在数据所在的节点上并行地(parallel)处理它们,这使得处理非常的快速。

可靠性(Reliable):hadoop能自动地维护数据的多份副本,并且在任务失败后能自动地重新部署(redeploy)计算任务。

  • 5
    点赞
  • 0
    评论
  • 10
    收藏
  • 一键三连
    一键三连
  • 扫一扫,分享海报

©️2021 CSDN 皮肤主题: 黑客帝国 设计师:白松林 返回首页
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值