数据分析与软件

参考学习《Druid实时大数据分析》

【数据分析】

数据分析:数据收集-->处理(格式转化、清洗)-->建模-->分析-->可视化,将数据转化为价值信息的过程。

领域

  • 商务智能(Business Intelligence,BI)
  • 数据挖掘(Data Mining,DM)
  • 联机分析处理(On-Line Analytical Processing,OLAP)
  • 人工智能(Artificial Intelligence,AI
【主要软件的孵化时间】

【软件分类】

  • 商业数据库
  • 开源时序数据库
  • 开源计算框架
  • 开源数据分析软件
  • 开源SQL on Hadoop
  • 云端数据分析SaaS

[商业数据库]

(1)Vertica是一款基于列存储的MPP(massively parallel processing)架构的数据库。它可以支持存放多至PB(Petabyte)级别的结构化数据。Vertica是由关系数据库大师Michael Stonebraker(2014 年图灵奖获得者)所创建,于2011年被惠普收购并成为其核心大数据平台软件。列存储实时分析平台

    • High Availability
    • Automatic DB Design
    • Advanced Compression
    • Massively parallel processing( MPP)
    • Column Orientation
    • Application Integration
(2)Oracle Exadata 是核心由Database Machine(数据库服务器) 与 Exadata Storage Server (存储服务器) 组成的一体机硬件平台.
https://baike.baidu.com/item/oracle%20exadata/10492560?fr=aladdin

(3)Teradata

[开源时序数据库]

时序数据库记录过去时间的数据点信息,主要应用场景如服务器运维监控。OpenTSDB、InfluxDB

[开源计算框架]

  • Hadoop:分布式系统基础计算框架,有完整的文件系统HDFS、MapReduce计算,K-V存储HBase,协调服务Zookeeper、SQL on Hadoop。适合大规模批处理
  • Spark:基于RDD的类MapReduce通用计算框架,RDD缓存复用适合迭代和非结构化数据查询

[开源数据分析软件]

  • Pinot:分布式列式数据存储系统,优秀的索引技术、准实时和批处理。刚起步,整体处理业务和Druid相似,待成熟
  • Kylin:多维预聚合,基于hive表的缓存,多维计算存储于基于OLAP Cube中,目前不支持实时流处理
  • Dremel:谷歌交互式数据分析系统,原理简介
  • Drill:Apache开源版Dremel,http://drill.apache.org/

[开源SQL on Hadoop]

  • Hive:基于Hadoop的数据仓库工具,将结构化的数据文件映射为表,已SQL转化为MR运行,查询慢
  • Impala:实时交互SQL查询工具,MPP直接从HBase/HDFS中查询数据,不需MR,Parquet格式的列存储,速度快
  • Presto:Facebook分布式SQL查询引擎,直接访问HDFS或其他数据存储层,不需MR,将SQL查询转化为分布式任务,完全内存进行计算





评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值