A Vimer's World

Cogito, ergo sum.

Apache Beam编译&运行Demo

ApacheBeam源码变异 # 调整下build.gradle // mavenCentral() maven { url 'http://maven.aliyun.com/nexus/content/groups/public/'} # 编译spark-runner ./gradlew b...

2019-04-09 19:18:39

阅读数 41

评论数 0

Spark Streaming 基于Yarn集群提交任务疑惑

参考项目: https://github.com/LiShuMing/spark-demos 疑惑一、Spark提交任务依赖包问题? 使用Spark打jar包是个比较头疼的问题: * 不能包冗余的依赖(比如hadoop/hbase)放到jar包里,有可能导致运行环境污染; * ...

2018-05-17 10:52:29

阅读数 408

评论数 0

Spark支持kerberos环境下的Kafka、Hbase传输

一、准备环境: 创建Kafka Topic和HBase表 1. 在kerberos环境下创建Kafka Topic 1.1 因为kafka默认使用的协议为PLAINTEXT,在kerberos环境下需要变更其通信协议: 在${KAFKA_HOME}/config/producer.prop...

2018-05-14 19:46:32

阅读数 816

评论数 0

Yarn下CGroups对CPU限制的理解

好奇Yarn CGroup限制是怎么样对CPU做限制的? CGroup对CPU的限制 cpushares隔离: 给我们提供了一种可以按权重比率弹性分配cpu时间资源的手段;当cpu空闲的时候,某一个要占用cpu的cgroup可以完全占用剩余cpu时间,充分利用资源。而当其他cgro...

2018-04-25 20:00:06

阅读数 445

评论数 0

Java环境下编译支持Debian/Centos系统安装镜像

项目需要编译镜像安装,现在梳理下在Debian/Centos系统下编译可安装镜像的方法。 在项目中配置pom.xml如下,支持deb/centos系统: <plugins> <plu...

2018-04-20 11:43:05

阅读数 106

评论数 1

NameNode JVM配置详解

NameNode JVM配置详解 线上NameNode JVM如下 /home/hadoop/java-current/bin/java -Dhadoop.log.dir=/mnt/dfs/5/hdfs/logs -Dhadoop.log.file=hadoop.log -Dhadoop...

2018-04-20 11:27:08

阅读数 559

评论数 0

在Hive表中支持HBase操作

非Kerberos环境 环境部署 将HBase Master/lib下的一下jar包复制到到hiveserver/lib下: root@hzadg-mammut-platform7:/usr/ndp/current/hive_server2/lib/hive-jars# ls -...

2018-04-20 11:24:18

阅读数 89

评论数 0

Zookeeper服务开启jmx通过jconsole进行监控

配置 在./bin/zkServer.sh中添加开启jmx的命令如下: if [ "x$JMXLOCALONLY" = "x" ] then JMXLOCALONLY=false fi if [ &quo...

2018-03-30 17:01:47

阅读数 433

评论数 0

在github/gitlab上打一个pull的patch

梳理 比如这样一个请求(Merge Request): https://github.com/apache/spark/commit/c68ec4e6a1ed9ea13345c7705ea60ff4df7aec7b 在这个commit后面添加patch,并保存该patch文件 ...

2018-03-29 14:52:35

阅读数 409

评论数 0

HBase Master启动认证kerberos失败&问题解决

1. 问题复原 在kerberos环境下启动HBase时,包如下错误: 2018-03-29 11:59:12,828 INFO [main-SendThread(hadoop2497.jd.163.org:2181)] zookeeper.ClientCnxn: Socket connec...

2018-03-29 14:33:33

阅读数 526

评论数 0

基于Ambari 滚动、快速升级实现调研(内源版本)

背景 当前现状 当前的Ambari自身仍然不支持版本的升级,所以下一个版本NDP-3.3.0该如何升级存在着疑问: 比如说当前的NDP-3.2.0,如果猛犸上线新的的mammut 4.16对应的的NDP-3.3.0版本,该怎么操作? 或者在NDP-3.3.0版本中做了hadoop从2....

2018-03-28 17:02:39

阅读数 225

评论数 0

基于角色权限管理系统数据库表设计结构(常用电商客户管理后台)

表结构 用户表 各种角色用户基本信息表:客户、店主、管理员均使用本表; +---------------------+-------------+------+-----+---------------------+----------------------------...

2018-03-28 16:41:45

阅读数 3029

评论数 0

Ambari日常运维操作命令收集

Ambari REST API查询相关 获取集群配置信息:http://hzadg-mammut-platform1.server.163.org:8080/api/v1/clusters/cluster1?fields=Clusters/desired_configs 特定配置信息(clus...

2018-03-28 16:35:41

阅读数 528

评论数 0

Spark2.3.0之pyspark实现原理分析

背景 PySpark Performance Enhancements: [SPARK-22216][SPARK-21187] Significant improvements in python performance and interoperability by fast data ...

2018-03-06 16:15:18

阅读数 1290

评论数 0

Spark 2.3.0支持ORC Vectorized矢量化源码分析

Vectorized ORC Reader: [SPARK-16060] Adds support for new ORC reader that substantially improves the ORC scan throughput through vectorization (2-...

2018-03-05 22:22:32

阅读数 1060

评论数 0

Hive及Spark中Join中过滤下推优化分析

前言: 在Spark SQL中有一条PushPredicateThroughJoin优化规则,其原理是参考Hive中的Join规则完成的,具体参考本文的规则1/2。 Definitions Preserved Row table: The table in an Outer Join...

2018-02-24 11:49:34

阅读数 141

评论数 0

Ambari之metainfo.xml详解

metainfo.xml定义了Ambari管理Service的一些配置内容,该文件对应Service定义起着至关重要的作用。 结构 一级结构 Field Usage Sample Values name service的名称,该名称必须保障在s...

2018-02-23 16:40:47

阅读数 392

评论数 0

Ambari之自定义Stack和Service

背景 可以从/ambari-server/src/main/resources/stacks源码中查找Stack的相关定义; 当安装完ambari-server后,可以在/var/lib/ambari-server/resources/stacks目录下查找stack相关定义; ...

2018-02-23 16:40:10

阅读数 810

评论数 0

Structured Streaming Programming Abstraction, Semantics, and APIs

介绍 通过过去三年里部署、运维Spark Streaming的积累,我们在Catalyst和DataFrames的基础上重新架构了绰号为“Struct Streaming”的实时计算项目。 语义 我们提出来一个简单的模型“repeated queries(RQ)”。基于该模型用户可以从原...

2018-02-23 16:38:39

阅读数 148

评论数 0

Facebook Spark 60TB Spark应用场景总结学习

可用性调优 SPARK-13793 之前的PipedRDD实现容错性较差,只要发生fetch错误时,整个job就会失败,该PR改进了PipedRDD从而可以更优雅地处理fetch错误,使得job可以从失败中恢复; SPARK-13369 可配置最大fetch失败次数,...

2018-02-23 16:37:48

阅读数 131

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭