![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
云计算
文章平均质量分 80
leebhing
这个作者很懒,什么都没留下…
展开
-
Flume-ng
Flume-ng的原理和使用 原文 http://blog.javachen.com/2014/07/22/flume-ng.html 主要是转载,但是leehbing也进行了一些整理,给网友献上 1. 介绍 Flume NG是Cloudera提供的一个分布式、可靠、可用的系统,它能够将不同数据源的海量日志数据进行高效收集、聚合、移动,最后存储到一个中心化数据存储系统中。由原来的Flum转载 2017-03-19 11:20:19 · 292 阅读 · 0 评论 -
Scala:fold,foldLeft和foldRight区别与联系
从本质上说,fold函数将一种格式的输入数据转化成另外一种格式返回。fold, foldLeft和foldRight这三个函数除了有一点点不同外,做的事情差不多。我将在下文解释它们的共同点并解释它们的不同点。 我将从一个简单的例子开始,用fold计算一系列整型的和。 val numbers = List(5, 4, 8, 6, 2)转载 2017-08-23 11:39:43 · 844 阅读 · 0 评论 -
Hbase中内置Filter详解
一、建表 1、表名:“ORDER_TABLE” 2、列簇:“user”,“order”,“item” 3、表结构如下: 二、封装服务 服务代码如下: [java] view plain copy @Override public String get(String tableName, Filter转载 2017-08-10 09:23:09 · 2164 阅读 · 0 评论 -
Failed deleting my ephemeral node
Failed deleting my ephemeral node 2017-01-05 11:07:39,490 WARN zookeeper.RecoverableZooKeeper: Node /hyperbase1/rs/tw-node1217,60020,1483585655650 already deleted, retry=false 2017-01-05 1原创 2017-08-09 09:25:04 · 1446 阅读 · 0 评论 -
ElasticSearch 5.0.0 安装部署常见错误或问题
http://www.dajiangtai.com/community/18136.do?origin=csdn-geek&dt=1214 ElasticSearch 5.0.0 安装部署常见错误或问题 问题一: [2016-11-06T16:27:21,712][WARN ][o.e.b.JNANatives ] unable to instal转载 2017-07-07 10:09:31 · 1012 阅读 · 0 评论 -
在scala中利用org.json4s 操作json
https://github.com/json4s/json4s/tree/v.3.2.0_scala2.10 SON4S At this moment there are at least 6 json libraries for scala, not counting the java json libraries. All these libraries转载 2017-07-05 11:16:18 · 17589 阅读 · 0 评论 -
提交spark streming报错
运行spark streaming报错: LeaseExpiredException): No lease on /user/razor/ssc-chkpoint/cd/temp (inode 105931) 解决方法: ps -ef | grep Count #发现有好几个流计算进程(Count为提交的任务名称),全部杀掉,重新spark-submit,ok原创 2017-06-08 11:05:21 · 500 阅读 · 0 评论 -
Spark Master、Worker、Driver、Executor工作流程详解
http://blog.csdn.net/zhumr/article/details/52518506 1、Spark的部署图: 在基于standalone的Spark集群,Cluster Manger就是Master。 Master负责分配资源,在集群启动时,Driver向Master申请资源,Worker负责监控自己节点的内存和CPU等状况,并向Master汇报。转载 2017-06-08 10:04:59 · 9303 阅读 · 3 评论 -
spark读取kafka数据 createStream和createDirectStream的区别
1、KafkaUtils.createDstream 构造函数为KafkaUtils.createDstream(ssc, [zk],[consumer group id], [per-topic,partitions] ) 使用了receivers来接收数据,利用的是Kafka高层次的消费者api,对于所有的receivers接收到的数据将会保存在Spark executors中,然后通过转载 2017-06-08 10:04:11 · 666 阅读 · 0 评论 -
Spark Yarn-cluster与Yarn-client
http://blog.csdn.net/BlockheadLS/article/details/53329323 0 首先注意的概念 ResourceManager:是集群所有应用程序的资源管理器,能够管理集群的计算资源并为每个Application分配,它是一个纯粹的调度器。 NodeManager:是每一台slave机器的代理,执行应用程序,并监控应用程序的资源使用情况。转载 2017-05-19 19:41:40 · 340 阅读 · 0 评论 -
java端发送数据给fafka不成功的问题
从网上找了一些producer和consumer的java例子,在producer中发送数据的时候就是进不去kafka,但是控制台并不报错, 另外在kafka上直接用kafka-console-producer和kafka-console-consumer命令是有数据的,试了好长时间,最后在maven中把kafka的依赖从版本0.8.0改为0.8.2.0,就可以了,到现在我也没搞懂为啥?知道原因原创 2017-04-14 10:41:21 · 569 阅读 · 1 评论 -
CDH集群报一个DataNode未连接上的错误
之前有一次,启动CDH集群突然报slave03这个DataNode未连接上的错误,直接导致HBase等服务组件出现问题 经过排查,一开始,将原来的hosts文件: 192.168.1.15 archive.cloudera.com 192.168.1.7 slave01 192.168.1.11 slave02 192.168.1.12 cc.co.com 192.168.原创 2017-04-13 16:05:47 · 1966 阅读 · 0 评论 -
sqoop常用命令整理
1、列出mysql数据库中的所有数据库 sqoop list-databases --connect jdbc:mysql://localhost:3306/ -username root -password 000000 2、连接mysql并列出数据库中的表 sqoop list-tables --connect jdbc:mysql://localhost:3306/test --us原创 2017-03-24 15:18:10 · 6154 阅读 · 0 评论 -
elasticsearch引用jar包与其他jar冲突解决办法
问题提出: 官网blog:https://www.elastic.co/blog/to-shade-or-not-to-shade 比如你的项目中引用的Joda 2.1,而elasticsearch 2.2.0引用的Joda 2.8,则在使用elasticsearch的时候以为会先找到Joda 2.1,导致elasticsearch用不起来,所以怎么解决呢 1.新建一个maven项目进行原创 2017-04-10 16:42:16 · 3890 阅读 · 0 评论 -
jps命令
ps命令是用来显示当前系统的进程情况,有哪些进程,及其 id。jps(Java Virtual Machine Process Status Tool,JAVA_HOME/bin/jps)也是一样,它的作用是显示当前系统的java进程情况,及其id号。我们可以通过它来查看我们到底启动了几个java进程(因为每一个java程序都会独占一个java虚拟机实例),和他们的进程号(为下面几个程序做准备原创 2017-09-18 10:07:49 · 1024 阅读 · 0 评论