自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

bigdata_player

大数据工厂

  • 博客(9)
  • 资源 (8)
  • 收藏
  • 关注

原创 Hadoop Yarn 的三种资源调度器详解

1、调度器的选择       在Yarn中有三种调度器可以选择:FIFO Scheduler ,Capacity Scheduler,FairS cheduler。        FIFO Scheduler把应用按提交的顺序排成一个队列,这是一个先进先出队列,在进行资源分配的时候,先给队列中最头上的应用进行分配资源,待最头上的应用需求满足后再给下一个分配,以此类推。        F...

2019-01-22 23:18:02 809

原创 Spark-Streaming获取kafka数据的两种消费模式、三种消费语义

两种消费模式一、基于Receiver的方式 Receiver是使用Kafka的高层次Consumer API来实现的。receiver从Kafka中获取的数据都是存储在Spark Executor的内存中的,然后Spark Streaming启动的job会去处理那些数据。 然而,在默认的配置下,这种方式可能会因为底层的失败而丢失数据。如果要启用高可靠机制,让数据...

2019-01-08 00:01:27 2972 2

原创 YARN方面的调优

1.使用好三种调度器           将任务分队列,不同的任务使用不同的队列           三种调度器详解:https://blog.csdn.net/qq_23160237/article/details/86585511 2.充分利用cpu和内存          yarn资源管理有虚拟核和虚拟内存的概念,可以将虚拟核、虚拟内存调整为物理机的两到三倍,增加任务数量...

2019-01-22 23:45:53 476

原创 YARN资源管理器(Resource Manager、Node Manager、Application Master 、Container)

HADOOP 1.0存在的问题HDFS1.0存在的问题:Namenode单点故障:集群的文件都是以“块(block)”的形式存储,并且为了容错,每个block有多个副本。namenode需要记录整个集群所有block及其副本的元数据信息(fsimage:文件目录结构,block和文件的映射关系等)和操作日志(edits),因此,在hadoop1.0框架中,namenode设计为单个节点,通...

2019-01-15 23:41:42 9585

原创 spark使用hive时,数据仓库位置指定

在spark 2.0.1 中,--hiveconf "hive.metastore.warehouse" 参数已经不再生效,用户应该使用 --conf spark.sql.warehouse.dir=hdfs://HOSTNAME:9000/user/hive/warehouse 命令进行代替

2019-01-09 23:24:01 2070

原创 spark自定义分区器

       我们都知道Spark内部提供了HashPartitioner和RangePartitioner两种分区策略,这两种分区策略在很多情况下都适合我们的场景。但是有些情况下,Spark内部不能符合咱们的需求,这时候我们就可以自定义分区策略。为此,Spark提供了相应的接口,我们只需要扩展Partitioner抽象类,然后实现里面的三个方法:// 这个方法需要返回你想要创建分区的个数...

2019-01-09 00:04:52 1007

转载 Spark分区器HashPartitioner和RangePartitioner代码详解

    在Spark中分区器直接决定了RDD中分区的个数;也决定了RDD中每条数据经过Shuffle过程属于哪个分区;也决定了Reduce的个数。这三点看起来是不同的方面的,但其深层的含义是一致的。  我们需要注意的是,只有Key-Value类型的RDD才有分区的,非Key-Value类型的RDD分区的值是None的。  在Spark中,存在两类分区函数:HashPartitioner和RangePartitioner,它们都是继承自Partitioner,主要提供了每个RDD有几个分区(numPa

2019-01-08 22:56:28 342

原创 ElasticSearch集群数据迁移

背景     因为ES所在机器,有会大量占用cpu和内存的软件,导致ES运行不稳定甚至无法响应的问题。我们对ES的服务进行了迁移。迁移方法    我们使用的ES版本是2.3.3,现在已经更新到了5.x版本(当时5.6.1)。而且ES更新到5.x后,增加了很多新特性和性能的优化。因此,我们也正好准备借这次迁移,将ES给升级了。     最初迁移和升级方法是基于官网资料,得出的方法如下...

2019-01-08 10:54:14 601

原创 linux环境下crontab加载用户变量、python虚拟环境踩坑

问题场景       在python虚拟环境中,执行一个语义分析的程序 ./commentAnalysis.sh ,需要每隔10分钟执行一次!结果发现手动执行该脚本,完全没问题,但是呢,一放到crontab定时器就不执行了?这是为什么呢? 问题排查       在linux shell中手动执行 env  , 显示出来一堆已经加载的环境变量; 然后写一个脚本 执行 env命令,放在...

2019-01-07 22:18:10 1639 1

zookeeper备份恢复工具

可以指定zk node进行备份与恢复,方便使用

2021-11-05

kafka-manager2.0.0.2

kafka-manager编译后的安装包,直接解压安装,免编译!

2020-12-16

kafka-manager3.0.0.4安装包(编译后)

kafka-manager编译后的安装包,直接解压安装,免编译!

2020-12-16

推荐系统算法工程师——从入门到就业.txt

推荐系统是电商和内容型app网站生存的重要手段,是以重新组织物品分类和聚类方式形成的人工智能系统。亚马逊的商品推荐、优酷的视频推荐,都是推荐系统的应用实例。每一个具体的应用场景中推荐系统表现形式有所不同,但是最终都是以增加内容、商品曝光度为前提的。 推荐系统根据每一个用户的行为和喜好,找到这个用户未来可能喜欢和购买的商品或者是物品。它使得内容、电商两大产业减少了大量的人工编辑推荐的工作,只需要用一些简单或者深入的算法,就可以达到很好的效果。

2019-11-26

clickhouse之zabbix监控模板(支持账号密码,配置文件可传)

clickhouse之zabbix监控模板(支持账号密码,配置文件可传)

2019-09-24

flink on yarn 缺少依赖NoClassDefFoundError: com/sun/jersey

flink-hadoop-compatibility_2.12-1.7.1.jar javax.ws.rs-api-2.0.1.jar jersey-common-2.27.jar jersey-core-1.19.4.jar 解决 Exception in thread "main" java.lang.NoClassDefFoundError: com/sun/jersey/api/client/config/ClientConfig

2019-06-06

apache-kylin-2.6.2-bin-hadoop3.tar.gz

apache-kylin-2.6.2-bin-hadoop3.tar.gz 最新版本修复版下载, 修改 报错 Missing required configuration "partition.assignment.strategy" which has no default value. ".

2019-05-15

Spring 加密工具包(kylin密码加密工具包)

使用方法:用java命令 java -jar encryption.jar admin

2019-04-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除