大数据
little_newBee
正在努力学习的小小菜鸟
展开
-
记第一次使用HBase遇到的坑。
Exception in thread “main” org.apache.hadoop.hbase.client.RetriesExhaustedException: Failed after attempts=35, exceptions: Tue Jan 20 11:05:37 CST 2015, org.apache.hadoop.hbase.client.RpcRetryingCall...原创 2018-02-26 17:38:21 · 1208 阅读 · 0 评论 -
小案例 Flume整合Kafka
最近学习了一下大数据,做一个简答的case,使用spark streaming读取日志文件并进行分析,使用的是比较流行的flume+kafka进行数据的读取,sparkstreaming从kafka中读取即可。这里简单记录一下flume整合kafka的流程。本文统一采用cloudera的cdh5.7.0版本,不知道的小伙伴这里提供一下网址cloudera 前提提醒 部署之前先进行一些说明。...原创 2018-04-12 17:04:26 · 427 阅读 · 0 评论 -
hive读取hbase数据 create external table需要注意的地方
现有一个需求是要使用hive从hbase中聚合数据并存放到mysql中。 涉及到了从hive中读取hbase。读取方法上网一搜搜到了,不再赘述。但很多并不是按照他的步骤走下来就可以没有错误的执行的。会遇到不同的问题。这里记录一下我遇到的问题。 EOF 字样问题 通常看到这个字样就说明对应的符号缺少了,比如(),只写了(,忘记写 ) ,单双引号遗漏的问题,但是在hive的命令行中,我发现了是...原创 2018-06-21 15:15:46 · 2122 阅读 · 0 评论 -
spark比mapreduce快的一个原因
接触spark时间不长,但是有些概念还是没有太校准,于是回顾了一下spark的文档。读到shuffle操作那块发现spark的shuffle操作后的reduce也是存储到文件然后从文件中读取。以前一直以为spark快是因为这部分操作是在内存中执行,也就是reduce操作从内存中读取shufflemaptask的结果。看来以后学知识还是要扎实一点,慢一点没有关系。 上面指出了,spark也是从文件...原创 2018-07-04 17:00:11 · 3530 阅读 · 3 评论