bigdata
sheep8521
让优秀成为一种习惯
展开
-
开源大数据处理引擎汇总(一)
查询引擎一、Phoenix贡献者::Salesforce简介:这是一个Java中间层,可以让开发者在Apache HBase上执行SQL查询。Phoenix完全使用Java编写,代码位于GitHub上,并且提供了一个客户端可嵌入的JDBC驱动。Phoenix查询引擎会将SQL查询转换为...转载 2018-07-23 11:48:31 · 14074 阅读 · 0 评论 -
开源大数据处理工具汇总(二)
日志收集系统一、Facebook Scribe贡献者:Facebook简介:Scribe是Facebook开源的日志收集系统,在Facebook内部已经得到大量的应用。它能够从各种日志源上收集日志,存储到一个中央存储系统(可以是NFS,分布式文件系统等)上,以便于进行集中统...转载 2018-07-23 11:50:47 · 336 阅读 · 0 评论 -
大数据调度框架(一)Oozie
背景: 之前项目中的sqoop等离线数据迁移job都是利用shell脚本通过crontab进行定时执行,这样实现的话比较简单,但是随着多个job复杂度的提升,无论是协调工作还是任务监控都变得麻烦,我们选择使用oozie来对工作流进行调度监控。在此介绍一下oozie~注:我的 Oozie server version:[4.1.0 - CDH 5.13.0]一、官网介绍首先看官网首页介...转载 2018-08-23 14:24:35 · 7283 阅读 · 1 评论 -
大数据常见的错误总结
1、这个是的典型的NoClassDefFoundError的问题,notfound的错误肯定是少包或者少依赖的原因。(这个错误没有遇到过也没试过)这里是官网上的说明https://spark.apache.org/docs/latest/hadoop-provided.html具体执行办法是:在spark-evn.sh中添加这里实际上就是执行一条hadoop的命令,将hadoop的c...原创 2019-04-11 16:48:16 · 1590 阅读 · 0 评论