大数据环境下的云计算与物联网

大数据环境下的云计算与物联网


1.1 云计算与物联网

1.1.1 云计算

云计算是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需提供给计算机和其他设备。

1. 从部署模型的角度分类
(1)公有云 Public Cloud
(2)私有云 Private Cloud
(3)社区云 Community Cloud
(4)混合云 Hybrid Cloud

2. 从使用模式的角度分类,云计算通常存在如下三种服务模式
(1)软件及服务 SaaS
(2)平台即服务 PaaS
(3)基础架构即服务 IaaS

1.1.2 物联网

物联网诞生于1999年,旨在把实物通过射频识别等信息传感设备与互联网连接起来,实现智能化识别和管理,是通过传感器和互联网实现物物衔接的新技术。物联网是传感网、无线网、互联网等网络技术和分布式系统、高性能计算等数据处理技术交叉融合和发展的产物。

物联网体系结构包括4个层次:感知层、传输层、数据处理层、应用层。

1.2 大数据下的新挑战

1.2.1 大数据及其特征

1. 数据体量大
2. 数据类型多
3. 数据更新速度快(最显著特征)
4. 价值密度低
5. 待挖掘的真实性

1.2.2 大数据处理的技术挑战

正是大数据与传统离线数据迥然不同的特点,使得大数据时代的数据处理面临着新的挑战。

1. 新型的数据模型
单一、固定的数据表示法,无法直观地展现出数据本身的意义,特别是针对具有多样化特征的大数据。事实上,试图给出大数据的固定模式、因果关系和关联是不现实的。所以,为不同形态的数据,选择最合适的数据模型是可取的方式。应当说,数据模型与应用实际的业务有密切关系。针对多元的原始数据,给出特定应用下的模型,有利于减少处理过程中数据识别、分类和分析的困难。

2. 高扩展性的数据分析技术
CAP理论说明,分布式系统中的一致性、可用性、分区容错性三者不可兼得。所以,并行关系数据库必然无法获得较强的扩展性和良好的系统可用性。然而,可扩展、高可用是大数据处理系统必要的需求,如何权衡各个因素,成为了技术研究的挑战和热点。

数据管理

传统的关系型数据库面对大数据往往无法胜任,源于数据库处理系统的目标是追求高度数据一致性和容错性。面对这些挑战,NoSQL数据库发展成为了必然结果。
NoSQL数据库特征:模式自由、支持简易备份、简单的应用程序接口、最终一致性(支持BASE特性,不支持ACID,也即放松了对数据一致性的要求)、支持海量数据。

数据处理

以Google MapReduce和Apache Hadoop为代表的非关系数据分析技术,逐渐成为业界事实上的标准。这类分布式的数据处理框架有三大特征:

  1. 简化分布式编程
  2. 提供便捷的集群管理
  3. 提供一定的可靠性保障

所以,它适合大规模并行处理,在大规模互联网数据的搜索和分析领域得到了广泛应用,已成为目前大数据分析的主流技术。

针对实时大规模数据的处理,已成为当前业界的核心需求之一。学术界和工业界很多研究工作均有涉及,综合相关方案可以大致纳为三类:
1. 高性能批数据处理模式(Hadoop
2. 流式数据处理模式(Storm
3. 两者混合的模式(Spark Streaming通过引入离散流编程模型,改进了批处理模式,大幅度提高处理速度)

数据集成与融合

数据集成和融合本身并不新颖,但是大数据环境下的这个问题却有了新的需求,因此也面临着新的挑战。泛在的数据在当前分布式环境下,越来越多地以不同结构、不同质量、不同管理域的形式散布在不同的数据管理系统。为了完成跨平台、多源数据汇集的综合的业务功能,数据集成和融合的需求便日益凸显。
从数据的异构性角度,大数据环境存在新的特征。
1. 数据类型从以结构化为主转向结构化、半结构化、非结构化三者的融合
2. 数据源的多样性,带来数据产生方式的变化(传感器、手机、平板电脑、GPS设备)
3. 数据存储需求出现了根本性变化

数据隐私保护
隐私问题伴随IT的发展一直层出不穷,互联网环境下累积的大规模数据,更加容易传播和泄露。这使得大数据处理在当前成为一把双刃剑,在为人们的生活带来便利的同时,也加重了自身隐私暴露的危险。所以,大数据环境下的隐私保护,主要体现在隐匿敏感信息的前提下,进行有效的数据挖掘。

服务的易用性
服务是IT应用生成和实践的最常用渠道,在当前大数据环境下有着特别的意义。服务易用性的挑战突出体现在两个方面:结果的多样性和面向最终用户。
一方面,在大数据环境下,因为处理的数据量大且分析更复杂,为了能让处理的结果被更多地利用,服务是必要的;同时为了从不同维度理解处理结果,针对同一数据集甚至同一种业务计算,应该提供形式多样的呈现方式。另一方面,相比专业的数据库处理,大数据往往是领域业务相关的,需要面向业务人员等最终用户。最终用户不是数据分析的专家,甚至不是IT行业的从业者,复杂的理论和技术往往超过了他们可接受的范围。所以针对大数据如何设计和提供服务,是一个必须解决却仍处于起步阶段的研究问题,所以如何的几个原则应当考虑:
1. 数据可视化原则
2. 匹配原则
3. 反馈原则

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值