2019年01月_大数据玩家

12月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创 Hadoop Yarn 的三种资源调度器详解

1、调度器的选择在Yarn中有三种调度器可以选择：FIFO Scheduler ，Capacity Scheduler，FairS cheduler。 FIFO Scheduler把应用按提交的顺序排成一个队列，这是一个先进先出队列，在进行资源分配的时候，先给队列中最头上的应用进行分配资源，待最头上的应用需求满足后再给下一个分配，以此类推。 F...

2019-01-22 23:18:02 809

原创 Spark-Streaming获取kafka数据的两种消费模式、三种消费语义

两种消费模式一、基于Receiver的方式 Receiver是使用Kafka的高层次Consumer API来实现的。receiver从Kafka中获取的数据都是存储在Spark Executor的内存中的，然后Spark Streaming启动的job会去处理那些数据。然而，在默认的配置下，这种方式可能会因为底层的失败而丢失数据。如果要启用高可靠机制，让数据...

2019-01-08 00:01:27 2972 2

原创 YARN方面的调优

1.使用好三种调度器将任务分队列，不同的任务使用不同的队列三种调度器详解：https://blog.csdn.net/qq_23160237/article/details/86585511 2.充分利用cpu和内存 yarn资源管理有虚拟核和虚拟内存的概念，可以将虚拟核、虚拟内存调整为物理机的两到三倍，增加任务数量...

2019-01-22 23:45:53 476

原创 YARN资源管理器(Resource Manager、Node Manager、Application Master 、Container)

HADOOP 1.0存在的问题HDFS1.0存在的问题：Namenode单点故障：集群的文件都是以“块(block)”的形式存储，并且为了容错，每个block有多个副本。namenode需要记录整个集群所有block及其副本的元数据信息（fsimage：文件目录结构，block和文件的映射关系等）和操作日志（edits），因此，在hadoop1.0框架中，namenode设计为单个节点，通...

2019-01-15 23:41:42 9585

原创 spark使用hive时，数据仓库位置指定

在spark 2.0.1 中，--hiveconf "hive.metastore.warehouse" 参数已经不再生效，用户应该使用 --conf spark.sql.warehouse.dir=hdfs://HOSTNAME:9000/user/hive/warehouse 命令进行代替

2019-01-09 23:24:01 2070

原创 spark自定义分区器

我们都知道Spark内部提供了HashPartitioner和RangePartitioner两种分区策略，这两种分区策略在很多情况下都适合我们的场景。但是有些情况下，Spark内部不能符合咱们的需求，这时候我们就可以自定义分区策略。为此，Spark提供了相应的接口，我们只需要扩展Partitioner抽象类，然后实现里面的三个方法：// 这个方法需要返回你想要创建分区的个数...

2019-01-09 00:04:52 1007

转载 Spark分区器HashPartitioner和RangePartitioner代码详解

　在Spark中分区器直接决定了RDD中分区的个数；也决定了RDD中每条数据经过Shuffle过程属于哪个分区；也决定了Reduce的个数。这三点看起来是不同的方面的，但其深层的含义是一致的。　　我们需要注意的是，只有Key-Value类型的RDD才有分区的，非Key-Value类型的RDD分区的值是None的。　　在Spark中，存在两类分区函数：HashPartitioner和RangePartitioner，它们都是继承自Partitioner，主要提供了每个RDD有几个分区（numPa

2019-01-08 22:56:28 342

原创 ElasticSearch集群数据迁移

背景因为ES所在机器，有会大量占用cpu和内存的软件，导致ES运行不稳定甚至无法响应的问题。我们对ES的服务进行了迁移。迁移方法我们使用的ES版本是2.3.3，现在已经更新到了5.x版本(当时5.6.1)。而且ES更新到5.x后，增加了很多新特性和性能的优化。因此，我们也正好准备借这次迁移，将ES给升级了。最初迁移和升级方法是基于官网资料，得出的方法如下...

2019-01-08 10:54:14 601

原创 linux环境下crontab加载用户变量、python虚拟环境踩坑

问题场景在python虚拟环境中，执行一个语义分析的程序 ./commentAnalysis.sh ，需要每隔10分钟执行一次！结果发现手动执行该脚本，完全没问题，但是呢，一放到crontab定时器就不执行了？这是为什么呢？问题排查在linux shell中手动执行 env , 显示出来一堆已经加载的环境变量；然后写一个脚本执行 env命令，放在...

2019-01-07 22:18:10 1639 1

zookeeper备份恢复工具

可以指定zk node进行备份与恢复，方便使用

2021-11-05

kafka-manager2.0.0.2

kafka-manager编译后的安装包，直接解压安装，免编译！

2020-12-16

kafka-manager3.0.0.4安装包（编译后）

kafka-manager编译后的安装包，直接解压安装，免编译！

2020-12-16

clickhouse之zabbix监控模板（支持账号密码，配置文件可传）

2019-09-24

flink on yarn 缺少依赖NoClassDefFoundError: com/sun/jersey

flink-hadoop-compatibility_2.12-1.7.1.jar javax.ws.rs-api-2.0.1.jar jersey-common-2.27.jar jersey-core-1.19.4.jar 解决 Exception in thread "main" java.lang.NoClassDefFoundError: com/sun/jersey/api/client/config/ClientConfig

2019-06-06

apache-kylin-2.6.2-bin-hadoop3.tar.gz

apache-kylin-2.6.2-bin-hadoop3.tar.gz 最新版本修复版下载，修改报错 Missing required configuration "partition.assignment.strategy" which has no default value. ".

2019-05-15

Spring 加密工具包(kylin密码加密工具包)

使用方法:用java命令 java -jar encryption.jar admin

2019-04-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

bigdata_player