大数据处理技术

1.大数据

  1. 容量(volume)
  2. 速度(velocity)
  3. 数据多样性(variety of Big Data)

2.大数据的解决方法

  • 充足的储存能力—虚拟化存储
  • 高速度的计算平台—多核处理器,网络计算机,内存内计算
  • 高新能的运算平台 —容错系统
  • 处理各种数据的能力 —分布式计算
  • 及时定制化信息传递 —移动设备,可视化范例,实时报警

关键技术:分布式与并行计算,Hadoop。
虚拟化:分区,隔离,封装

3.云计算

  1. IaaS—将硬件,存储和网络作为服务提供—eg:虚拟机,负载平衡器,网络附加存储
  2. PaaS—编写,运行程序—eg:Windows Azure 谷歌应用程序引擎(GAE)
  3. SaaS—IaaS,PaaS必须先运行起来,方能用。

4.并行计算技术

  1. 集群和网格
  2. 大规模并行处理(MPP)—eg:EMC Greenplum, ParAccel
  3. 高性能计算(HPC)

5.Spark

官方Spark: http://spark.apache.org/
入门简介:http://blog.jobbole.com/89446/

  1. 实现语言—Scala
  2. 整合了内存计算的基元
  3. SparkSQL—支持通过SQL或者Hive查询语言来查询数据
  4. Streaming—支持对流数据的实时处理
  5. MLlib—机器学习库
  6. Graphx—图处理
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值