【读书笔记】大数据处理平台 学术中国系列 宋杰著

读书笔记

大数据处理平台 学术中国系列 宋杰著

学术中国系列第三本书 这本书绝了hhhh,普通pc=廉价pc。对于大数据平台来说真实诚。我已经差不多忘记上一本(云计算大数据处理)讲的啥了,只记得mapreduce,一些存储方法还有一个数据立方。

这本书从大数据的体系结构、查询平台、分析平台以及迭代计算平台分别介绍。
集群系统原来指的是:在计算机集群上,将计算机连接作为单一的统一的计算资源,为上层提供计算服务的系统。统一管理与调度计算资源。
集群系统存储文件需要分布式文件系统支持,典例有Google和hadoop分布式文件系统。存储方面还有新型的nosql数据库(key~value)、newsql(现代关系数据库)数据库等。
计算框架有很多基于mapreduce。还有spark和流数据处理框架storm。

查询有两个大方向,一个是多维查询(高维数据模型)、mapreduce等模型处理查询任务精确查询,高维数据模型好像和数据立方有些关系。还有就是近似查询(概率查询)(准确率不高)。数据建模比较神奇。
分析平台,OLAP技术。

OLAP一般基于数据仓库分析数据,用前面讲的mapreduce等处理框架处理计算。优化方面有预处理、数据立方等等。(我理解为找数据群的特征值)。

不同计算框架下的迭代计算。算法的优化。(不动点迭代)

流处理与批处理相对应。

一次一个的流处理/微批量流处理。

数据源层sharding优化:改成分布式数据源。

记在备忘录的不太好截出图片,一起放出来吧。
值得一读的一本书。
在这里插入图片描述

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值