学习大数据之路
宛风轻云
这个作者很懒,什么都没留下…
展开
-
Spark和Hadoop的关系
直到现在BAT等一些互联网公司对大数据炒得很火,但很多人并不知道Spark和Hadoop的关系。很大一部分人说Spark会取代Hadoop,当然也有一部分人对其持反对意见。那到底会不会呢?下面我们先分别对Spark和Hadoop进行结构化的分析,然后通过对比分析得出分析。 Hadoop主要提供的是: HDFS:分布式存储系统。(Hadoop提供的最重要的东西----灵魂) MR:大数据分布式原创 2016-02-12 18:53:48 · 954 阅读 · 0 评论 -
大数据之流处理----流处理中的消息投递方式
消息投递中的可达性保证,一般是三种方案分别为:at most once(至少一次),at least once(至多一次),exactly once(恰好一次)。 at most once:在消息投递中每个消息投递0次或者1次,存在数据丢失的风险; at least once:保证每个消息会默认投递多次,至少保证有一次被成功的执行,存在消息重复的情况; exactly once:每个消息恰好...原创 2018-09-07 14:36:04 · 502 阅读 · 0 评论 -
大数据之kylin(一)----kylin的搭建分类和多节点的搭建实战
本篇博客主要介绍kylin的搭建方式的分类和部署多节点的方式实战 kylin主要作为一种预计算的大数据工具来提高大数据下的查询速度工具,在实际的应用中入门较快,上手容易。具体的相关知识可以参考http://kylin.apache.org/cn/。 1,一般在企业中有多种种部署方式,下面做一个简单的介绍: 第一种:单列部署(单点部署形式) 在已经部署了Hadoop、hive、hbase等的...原创 2018-09-07 17:18:34 · 1449 阅读 · 2 评论 -
datax的数据缺失的一次处理
应用场景:hive to gp 的数据抽取,在实践中发现存在大量的数据缺失,hive数据完整,而往gp抽数后gp数据存在数据缺失的问题。在datax官方github上有人讨论是hive 的orc数据格式的问题。这感觉很坑啊!后面试了很多种数据存储格式依然也存在这样的问题。后面带我的导师,通过经验和尝试的思路发现是hdfs文件存在过大也会产生这样的问题。规避方案是重新均衡hdfs 文件大小,这种规避...原创 2019-02-15 12:26:45 · 3632 阅读 · 2 评论