自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

转载 spark checkpoint详解

转载地址:https://www.cnblogs.com/superhedantou/p/9004820.htmlcheckpoint在spark中主要有两块应用:一块是在spark core中对RDD做checkpoint,可以切断做checkpoint RDD的依赖关系,将RDD数据保存到可靠存储(如HDFS)以便数据恢复;另外一块是应用在spark streaming中,使用checkp...

2019-01-16 17:06:19 907

转载 Spark Streaming-Checkpoint机制

转载地址:https://blog.csdn.net/anbang713/article/details/82047980一 概述每一个Spark Streaming应用,正常来说都是要7 * 24小时运转的,这就是实时计算程序的特点。因为要持续不断的对数据进行计算。因此对实时计算应用的要求,应该是必须要能够对与应用程序逻辑无关的失败,进行容错。如果要实现这个目标,Spark Stre...

2019-01-16 17:03:47 173 1

转载 Java中PriorityQueue详解

转载地址:https://www.cnblogs.com/Elliott-Su-Faith-change-our-life/p/7472265.htmlJava API 地址:https://docs.oracle.com/javase/8/docs/api/Java中PriorityQueue通过二叉小顶堆实现,可以用一棵完全二叉树表示。本文从Queue接口函数出发,结合生动的图解,深入...

2019-01-16 16:52:50 846

原创 java.lang.Error: Properties init: Could not determine current working directory

报错:Java.lang.Error: Properties init: Could not determine current working directory.[root@localhost current]# hadoop fs -ls /shell-init: 获取当前目录时出错: getcwd: 无法访问父目录: 没有那个文件或目录chdir: 获取当前目录时出错: getc...

2018-12-24 10:37:13 2348

转载 Hadoop启动的时候,发现Datanode启动不了,解决办法

转载地址:https://blog.csdn.net/cc1949/article/details/78467673                   https://www.cnblogs.com/kxdblog/p/4034255.html解决方法:(1)现象:# jps看不到DataNode(2)可能原因:datanode的clusterID 和 namenod...

2018-12-19 16:26:53 680

转载 Spark 序列化问题全解

转载地址:https://blog.csdn.net/JIESA/article/details/79996053                  https://blog.csdn.net/weixin_42653621/article/details/82534820在Spark应用开发中,很容易出现如下报错:org.apache.spark.SparkException: T...

2018-12-19 16:19:25 874

转载 Spark 使用sortByKey进行二次排序

转载地址:https://blog.csdn.net/dwb1015/article/details/52207945Spark的sortByKey API允许自定义排序规则,这样就可以进行自定义的二次排序、三次排序等等。 先来看一下sortByKey的源码实现:def sortByKey(): JavaPairRDD[K, V] = sortByKey(true)def sort...

2018-12-06 09:28:32 192

转载 kafka生产者与消费者相关命令行

原文:https://blog.csdn.net/wf3612581/article/details/818425741、开启zookeeper集群startzk.sh2、开启kafka集群start-kafka.sh3、开启kafka可视化界面 kafka-managerstart-kafka-manager.sh 4、生产者操作:kafka-conso...

2018-12-01 09:34:49 5980

转载 Hadoop namenode重新格式化需注意问题

原文:https://blog.csdn.net/gis_101/article/details/528219461、重新格式化意味着集群的数据会被全部删除,格式化前需考虑数据备份或转移问题;2、先删除主节点(即namenode节点),Hadoop的临时存储目录tmp、namenode存储永久性元数据目录dfs/name、Hadoop系统日志文件目录log 中的内容 (注意是删除目录下的内容...

2018-12-01 09:30:37 1954

转载 如何优雅的关闭基于yarn的SparkStreaming程序

转载地址:https://blog.csdn.net/c880420/article/details/80886699yarn application --listyarn application -kill application_1518954379926_0063 

2018-11-29 10:06:39 521

转载 Storm的流分组策略

原文地址:https://www.cnblogs.com/cutd/p/6740179.html首先我要强调的是,Storm的分组策略对结果有着直接的影响,不同的分组的结果一定是不一样的。其次,不同的分组策略对资源的利用也是有着非常大的不同,本文主要讲一讲localOrShuffle这个分组对资源利用的重大改善。最后,不同的分组对项目的逻辑也起着至关重要的决定,比如在写数据的时候不同的分组策略...

2018-11-08 14:52:37 262

转载 Spark之本地模式与集群模式

原文:https://blog.csdn.net/qq_33689414/article/details/802326051.spark-shell的本地模式和集群模式1.1 local本地模式直接启动spark-shell命令窗口脚本启动后,会生成一个SparkContext的上下文对象sc。并且启动的是本地模式(local)。如图:1.1.1 加载本地数据sc.t...

2018-11-02 14:16:19 3522 1

转载 Linux下安装Scala

Linux下安装Scala和Windows下安装类似,步骤如下:  首先访问下载链接:http://www.scala-lang.org/download/默认这里下载的是Windows版本,这时点击上面的All downloads进入所有的版本下载页面:    然后选择最新版本,Scala 2.11.8进入    进入后拉到页面下方,选择Mac OSX,Unix版本的二进制包...

2018-10-25 09:46:51 624

转载 关于storm中某一段时间内topN的计算入门

转载地址:https://www.cnblogs.com/zguood/p/4528195.html刚刚接触storm 对于滑动窗口的topN复杂模型有一些不理解,通过阅读其他的博客发现有两篇关于topN的非滑动窗口的介绍。然后转载过来。下面是第一种:Storm的另一种常见模式是对流式数据进行所谓“streaming top N”的计算,它的特点是持续的在内存中按照某个统计指标(如出现...

2018-09-30 15:24:00 220

转载 Hadoop API 使用介绍

转载地址:https://blog.csdn.net/wt346326775/article/details/53301117Hadoop API被分成(divide into)如下几种主要的包(package)org.apache.hadoop.conf 定义了系统参数的配置文件处理API。org.apache.hadoop.fs 定义了抽象的文件系统API...

2018-09-30 11:34:28 1545

转载 深入理解Java并发之synchronized实现原理

转载地址:https://blog.csdn.net/javazejian/article/details/72828483关联文章:深入理解Java类型信息(Class对象)与反射机制深入理解Java枚举类型(enum)深入理解Java注解类型(@Annotation)深入理解Java类加载器(ClassLoader)深入理解Java并发之synchronized实现原理...

2018-09-30 11:34:11 68

转载 利用storm个性化存储hdfs(更改storm-hdfs插件源码)

转载地址:https://blog.csdn.net/weixin_40209426/article/details/81220313在项目过程中,有这样一个需求,需要用storm消费实时流日志,存储hdfs,如果伙伴们要是抱着自己开发存储的心态去做,可能会耗费一定的开发周期,比较不划算,因为官方做了一个storm-hdfs的开发包供storm使用者轻松开发storm程序存储hdfs,但是这个...

2018-09-28 11:46:31 70

转载 简单易接入的Zookeeper

  转载地址:https://blog.csdn.net/xiangxizhishi/article/details/76563728  众所周知,分布式的系统协作服务很难有让人满意的产品。这些协作服务产品很容易陷入一些诸如竞争选择条件或者死锁的陷阱中。那Zookeeper又是怎么解决这个问题的呢?  Zookeeper提供了一些简单的操作,使得分布式应用可以基于这些接口实现诸如同步、配置...

2018-09-14 14:38:43 111

转载 分布式服务管理框架-Zookeeper客户端zkCli.sh使用详解

原文链接:http://blog.csdn.net/xyang81/article/details/53053642                 https://blog.csdn.net/dandandeshangni/article/details/80558383在学习zookeeper(下面简称zk)客户端之前,有必要先了解一下zk的数据模型。zk维护着一个逻辑上的树形层次结构...

2018-09-12 16:31:12 208

转载 kafka与storm集成测试问题小结

转载地址:https://blog.csdn.net/shj1119/article/details/488266191 拷贝kafka依赖jar包到storm lib[root@hdmaster libs]# cp kafka_2.10-0.8.2.1.jar /opt/apache-storm-0.9.5/lib/[root@hdmaster libs]# cp scala-libra...

2018-09-12 16:04:52 182

转载 eclipse使用maven教程

转载地址:https://blog.csdn.net/u012052268/article/details/78916196目录0.什么是maven1.maven下载与安装与配置1.1 下载1.2 安装1.3 配置环境变量2.在eclipse中配置2.1 m2eclipse安装2.2 配置eclipse3 创建一个maven项目3.1项目的结构3.2...

2018-09-07 09:49:41 14808 1

转载 maven 编译时跳过单元测试

转载地址:https://blog.csdn.net/u012899746/article/details/52312495方法一:pom文件添加如下配置:<plugins> <plugin> <groupId>org.apache.maven.plugins</groupId> <artifa...

2018-09-06 10:42:42 448

转载 maven报错Missing artifact jdk.tools:jdk.tools:jar:1.8解决方案

转载地址:https://blog.csdn.net/qy20115549/article/details/53004779在eclipse中,遇到了Missing artifact jdk.tools:jdk.tools:jar:1.8。其他也没有报错,感到很奇怪。原因:tools.jar包是JDK自带的,pom.xml中以来的包隐式依赖tools.jar包,而tools.jar并未...

2018-09-06 09:44:32 508

转载 eclipse编译项目:Java @Override 注解报错的解决方法

转载地址:https://www.cnblogs.com/libra0920/p/6408891.html错误:在 eclipse 的新工作空间开发项目时,出现大面积方法编译错误。鼠标放在方法名上后显示让我们去掉 @override 注解,如图:原因:@Override 是 jdk5 引入的机制,但是不支持对接口的实现。认为这不是 override 而报错,jdk6 及1.6以...

2018-09-04 10:55:18 340

转载 Cloudera的CDH和Apache的Hadoop的区别

转载地址:https://blog.csdn.net/Next__One/article/details/78592737                  https://blog.csdn.net/do_what_you_can_do/article/details/53096854Cloudera的CDH和Apache的Hadoop的区别目前而言,不收费的Hadoop版本主要有三...

2018-09-03 09:22:43 1610 1

转载 已解决:登录Linux的 -bash-4.2$ 问题

转载地址:https://blog.csdn.net/fly43108622/article/details/48155953新用户登录Linux的-bash-4.2$问题解决最近在linux下安装mysql时,用新建的mysql用户登陆linux系统发现是-bash-4.2$状态如下:[root@localhost home]# su - mysql Last login: T...

2018-08-10 09:34:11 152

转载 hadoop三个配置文件的参数含义说明

转载地址:https://blog.csdn.net/yangjl38/article/details/75833741 获取默认配置配置hadoop,主要是配置core-site.xml,hdfs-site.xml,mapred-site.xml三个配置文件,默认下来,这些配置文件都是空的,所以很难知道这些配置文件有哪些配置可以生效,上网找的配置可能因为各个hadoop版本不同,导致无法...

2018-08-09 09:56:56 257

转载 hadoop、hbase、hive、spark分布式系统架构原理

转载地址:https://blog.csdn.net/luanpeng825485697/article/details/80319552机器学习、数据挖掘等各种大数据处理都离不开各种开源分布式系统,hadoop用户分布式存储和map-reduce计算,spark用于分布式机器学习,hive是分布式数据库,hbase是分布式kv系统,看似互不相关的他们却都是基于相同的hdfs存储和yarn资源...

2018-08-08 08:59:25 454

原创 awk统计总结

(1)awk求和cat data |awk '{sum+=$1} END {print "Sum = ", sum}'(2)平均值cat data|awk '{sum+=$1} END {print "Average = ", sum/NR}'(3)求最大值cat data|awk 'BEGIN {max = 0} {if ($1>max) max=$1 fi} E...

2018-08-07 13:32:22 3399

转载 Storm异常之RuntimeException: Found multiple defaults.yaml resources

转载:https://blog.csdn.net/u013291394/article/details/50418931Storm异常之RuntimeException: Found multiple defaults.yaml resources异常今天在运行Storm与Kafka集成的Topology时抛出如下异常:java.lang.RuntimeException: Fo...

2018-08-02 08:55:39 418

转载 Kafka client 消息接收的三种模式

转载地址:https://blog.csdn.net/laojiaqi/article/details/79034798Kafka client 消息接收的三种模式引言kafka的消费模式总共有3种:最多一次,最少一次,正好一次。为什么会有这3种模式,是因为客户端处理消息,提交反馈(commit)这两个动作不是原子性。最多一次:客户端收到消息后,在处理消息前自动提交,这样kafka...

2018-07-20 10:40:40 1934

转载 kafka消费者

转载地址:https://www.cnblogs.com/sodawoods-blogs/p/8969774.html                  https://blog.csdn.net/qq_35349490/article/details/79790625                  https://blog.csdn.net/qq_35349490/article/d...

2018-07-20 10:27:10 1915

原创 使用pykafka,kafka-python的api开发kafka生产者和消费者

转载地址:https://blog.csdn.net/ricky110/article/details/79157043                  https://blog.csdn.net/DilemmaVF/article/details/71124060                  https://blog.csdn.net/yanhx1204/article/deta...

2018-07-19 15:17:19 17337 10

转载 kafka安装及配置

1、下载kafka 官网下载地址:https://www.apache.org/dyn/closer.cgi?path=/kafka/1.1.0/kafka_2.12-1.1.0.tgz 2、解压tar -xzf kafka_2.12-1.1.0.tgz /usr/local/kafka3、配置环境变量vim /etc/profile#set kafkaexport KAF...

2018-07-18 14:28:31 293

原创 kafka故障

(1)Configured broker.id 3 doesn't match stored broker.id 2 in meta.properties版本:kafka 1.1.0操作:修改server.properties中的broker id 一般会得到如下错误:[2018-07-18 11:05:14,825] ERROR Fatal error during KafkaS...

2018-07-18 14:16:00 3183

转载 apache kafka之server.properties配置文件参数说明

转载地址:https://blog.csdn.net/lizhitao/article/details/25667831每个kafka broker中配置文件server.properties默认必须配置的属性如下:broker.id=0num.network.threads=2num.io.threads=8socket.send.buffer.bytes=1048576socket.recei...

2018-07-05 11:44:45 122

转载 KafkaProducer-kafka生产者Java客户端

转载地址:https://blog.csdn.net/cjf_wei/article/details/77920435 KafkaProducer(org.apache.kafka.clients.producer.KafkaProducer)是一个用于向kafka集群发送数据的Java客户端。该Java客户端是线程安全的,多个线程可以共享同一个producer实例,而且这通常比在多个线程中每个...

2018-07-05 10:42:02 1288

转载 Storm 入门的Demo教程

转载地址:https://www.cnblogs.com/xuwujing/p/8584684.htmlStorm介绍Storm是Twitter开源的分布式实时大数据处理框架,最早开源于github,从0.9.1版本之后,归于Apache社区,被业界称为实时版Hadoop。随着越来越多的场景对Hadoop的MapReduce高延迟无法容忍,比如网站统计、推荐系统、预警系统、金融系统(高频交易、股票...

2018-07-03 17:05:56 151

转载 storm入门--storm的第一个示例

本文介绍在eclipse下开发storm的第一个示例。本文的示例基于storm提供的example中的ExclamationTopology,位于(examples/storm-starter/src/jvm/org/apache/storm/starter/ExclamationTopology.java)。本文使用的storm版本为storm-1.0.2。本文将在eclipse在进行代码的编写...

2018-07-03 16:01:36 366

转载 Maven问题:Failure to transfer org.apache.maven

转载:https://blog.csdn.net/gsycwh/article/details/52792633Maven报错:Failure to transfer org.apache.maven在创建Maven项目时,经常会在pom.xml的第一行处报错,提示信息如下:Failure to transfer org.apache.maven:maven-surefire-plugin:jar...

2018-07-03 10:58:28 223

提示
确定要删除当前文章?
取消 删除