自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

A Vimer's World

Cogito, ergo sum.

原创 Apache Beam编译&运行Demo

ApacheBeam源码变异 # 调整下build.gradle // mavenCentral() maven { url 'http://maven.aliyun.com/nexus/content/groups/public/'} # 编译spark-runner ....

2019-04-09 19:18:39 533 0

原创 Spark Streaming 基于Yarn集群提交任务疑惑

参考项目: https://github.com/LiShuMing/spark-demos 疑惑一、Spark提交任务依赖包问题? 使用Spark打jar包是个比较头疼的问题: * 不能包冗余的依赖(比如hadoop/hbase)放到jar包里,有可能导致运行环境污染; * ...

2018-05-17 10:52:29 799 0

原创 Spark支持kerberos环境下的Kafka、Hbase传输

一、准备环境: 创建Kafka Topic和HBase表 1. 在kerberos环境下创建Kafka Topic 1.1 因为kafka默认使用的协议为PLAINTEXT,在kerberos环境下需要变更其通信协议: 在${KAFKA_HOME}/config/producer.prop...

2018-05-14 19:46:32 1697 0

原创 Yarn下CGroups对CPU限制的理解

好奇Yarn CGroup限制是怎么样对CPU做限制的? CGroup对CPU的限制 cpushares隔离: 给我们提供了一种可以按权重比率弹性分配cpu时间资源的手段;当cpu空闲的时候,某一个要占用cpu的cgroup可以完全占用剩余cpu时间,充分利用资源。而当其他cgro...

2018-04-25 20:00:06 918 0

原创 Java环境下编译支持Debian/Centos系统安装镜像

项目需要编译镜像安装,现在梳理下在Debian/Centos系统下编译可安装镜像的方法。 在项目中配置pom.xml如下,支持deb/centos系统: <plugins> <plugin> ...

2018-04-20 11:43:05 166 1

原创 NameNode JVM配置详解

NameNode JVM配置详解 线上NameNode JVM如下 /home/hadoop/java-current/bin/java -Dhadoop.log.dir=/mnt/dfs/5/hdfs/logs -Dhadoop.log.file=hadoop.log -Dhadoop...

2018-04-20 11:27:08 1179 0

原创 在Hive表中支持HBase操作

非Kerberos环境 环境部署 将HBase Master/lib下的一下jar包复制到到hiveserver/lib下: root@hzadg-mammut-platform7:/usr/ndp/current/hive_server2/lib/hive-jars# ls -...

2018-04-20 11:24:18 167 0

原创 Zookeeper服务开启jmx通过jconsole进行监控

配置 在./bin/zkServer.sh中添加开启jmx的命令如下: if [ "x$JMXLOCALONLY" = "x" ] then JMXLOCALONLY=false fi if [ "x$JMXDISABLE"...

2018-03-30 17:01:47 1356 0

原创 在github/gitlab上打一个pull的patch

梳理 比如这样一个请求(Merge Request): https://github.com/apache/spark/commit/c68ec4e6a1ed9ea13345c7705ea60ff4df7aec7b 在这个commit后面添加patch,并保存该patch文件 ...

2018-03-29 14:52:35 1004 0

原创 HBase Master启动认证kerberos失败&问题解决

1. 问题复原 在kerberos环境下启动HBase时,包如下错误: 2018-03-29 11:59:12,828 INFO [main-SendThread(hadoop2497.jd.163.org:2181)] zookeeper.ClientCnxn: Socket connec...

2018-03-29 14:33:33 1285 0

原创 基于Ambari 滚动、快速升级实现调研(内源版本)

背景 当前现状 当前的Ambari自身仍然不支持版本的升级,所以下一个版本NDP-3.3.0该如何升级存在着疑问: 比如说当前的NDP-3.2.0,如果猛犸上线新的的mammut 4.16对应的的NDP-3.3.0版本,该怎么操作? 或者在NDP-3.3.0版本中做了hadoop从2....

2018-03-28 17:02:39 457 0

原创 基于角色权限管理系统数据库表设计结构(常用电商客户管理后台)

表结构 用户表 各种角色用户基本信息表:客户、店主、管理员均使用本表; +---------------------+-------------+------+-----+---------------------+----------------------------...

2018-03-28 16:41:45 5384 0

原创 Ambari日常运维操作命令收集

Ambari REST API查询相关 获取集群配置信息:http://hzadg-mammut-platform1.server.163.org:8080/api/v1/clusters/cluster1?fields=Clusters/desired_configs 特定配置信息(clus...

2018-03-28 16:35:41 933 0

原创 Spark2.3.0之pyspark实现原理分析

背景 PySpark Performance Enhancements: [SPARK-22216][SPARK-21187] Significant improvements in python performance and interoperability by fast data ...

2018-03-06 16:15:18 1708 0

原创 Spark 2.3.0支持ORC Vectorized矢量化源码分析

Vectorized ORC Reader: [SPARK-16060] Adds support for new ORC reader that substantially improves the ORC scan throughput through vectorization (2-...

2018-03-05 22:22:32 1866 0

原创 Hive及Spark中Join中过滤下推优化分析

前言: 在Spark SQL中有一条PushPredicateThroughJoin优化规则,其原理是参考Hive中的Join规则完成的,具体参考本文的规则1/2。 Definitions Preserved Row table: The table in an Outer Join...

2018-02-24 11:49:34 433 0

原创 Ambari之metainfo.xml详解

metainfo.xml定义了Ambari管理Service的一些配置内容,该文件对应Service定义起着至关重要的作用。 结构 一级结构 Field Usage Sample Values name service的名称,该名称必须保障在s...

2018-02-23 16:40:47 596 0

原创 Ambari之自定义Stack和Service

背景 可以从/ambari-server/src/main/resources/stacks源码中查找Stack的相关定义; 当安装完ambari-server后,可以在/var/lib/ambari-server/resources/stacks目录下查找stack相关定义; ...

2018-02-23 16:40:10 1305 0

原创 Structured Streaming Programming Abstraction, Semantics, and APIs

介绍 通过过去三年里部署、运维Spark Streaming的积累,我们在Catalyst和DataFrames的基础上重新架构了绰号为“Struct Streaming”的实时计算项目。 语义 我们提出来一个简单的模型“repeated queries(RQ)”。基于该模型用户可以从原...

2018-02-23 16:38:39 194 0

原创 Facebook Spark 60TB Spark应用场景总结学习

可用性调优 SPARK-13793 之前的PipedRDD实现容错性较差,只要发生fetch错误时,整个job就会失败,该PR改进了PipedRDD从而可以更优雅地处理fetch错误,使得job可以从失败中恢复; SPARK-13369 可配置最大fetch失败次数,...

2018-02-23 16:37:48 196 0

原创 Kafka常用命令整理

kinit 环境登录 kinit -kt /etc/security/keytabs/kafka.service.keytab kafka/hzadg-mammut-platform2.server.163.org@BDMS.163.COM; 基本操作 ./bin/kaf...

2018-02-23 15:49:06 382 0

原创 [TODO]Kafka及Kafka Streaming架构熟悉

基本概念 名称 解释 Broker 消息中间件处理节点,一个Kafka节点就是一个broker,一个或者多个Broker可以组成一个Kafka集群 Topic Kafka根据topic对消息进行归类,发布到Kafka集群的每条消息都需要指定一个topic ...

2018-02-23 15:45:09 3789 1

原创 关于Spark关注的一些问题

Issues spark.storage.replication.proactive 针对RDD,开启block proactive(主动)复制机制: 当Cached RDD在executor处理上失败时,如果有可用复制集则可以恢复过来,恢复至replica factor的数量; ...

2018-02-23 15:39:49 184 0

原创 Pyhon源码编译安装

下载版本 python下载源码python2.7.11安装(记得要下载python 2.7版本的),下载地址: http://www.python.org/download/ 安装步骤为(python 2.7的安装对是否能成功安装skyeye有决定性作用): 编译 注意:没有这个两个...

2018-02-23 15:33:29 136 0

原创 [TODO]HBase及Phoenix环境熟悉

HBase HLog SnapShot 参考: http://www.cnblogs.com/cenyuhai/p/3712943.html 写入/读取 Compaction Filters hbase(main):075:0>show_filter...

2018-02-23 15:31:48 244 0

原创 Ambari Metrics基于源码编译使用

编译(2.4.2) 参考:https://cwiki.apache.org/confluence/display/AMBARI/Installation+Guide+for+Ambari+2.4.2 wget http://www.apache.org/dist/ambari/ambari...

2018-02-23 15:24:13 243 0

原创 HDFS Federation基于Ambari部署安装(调研文档)

一、 HDFS Federation架构 * 在有Federation之前的HDFS架构 NameSpace层: 管理路径、文件以及blocks的关系,同时支持文件系统的操作比如mkdir/put/get等; BlockStorage层: - Block Management: 维护D...

2018-02-23 15:18:43 722 1

原创 [持续更新] 大数据技术博客收藏

技术博客 July结构之法、算法之道:http://blog.csdn.net/v_july_v docker:https://www.docker.com 刘未鹏: http://mindhacks.cn https://coolshell.cn/featured http://dancre...

2018-02-23 15:04:04 269 0

原创 Spark HiveThriftServer2启动流程源码分析

本文从Beeline连接HiveThriftServer2开始,梳理下执行SQL的流程。分析借助重载方法,将原本执行在Hive上的任务,转变成SparkSession.sql()操作的。

2017-05-06 17:30:08 3189 2

原创 Spark On YARN启动流程源码分析

1. Spark On Yarn启动 ApplicationMaster; 2. Sparn On Yarn启动 Executor; 3. Spark On Yarn真实运行Driver/ApplicationMaster/Exector日志;

2017-05-06 13:43:03 2339 3

原创 Ubuntu14.04 下安装配置php5和nginx问题解决

1. 尝试了源码编译php5.3 configure install; 2. 尝试了手动编译添加php-gd; 3. 因为apt-get install php5有很多问题,尝试着这种方式安装; 因为时间太晚了,就把浏览的网页放到这里,等有时间了再细细总结 #在stackflow上,跟我遇...

2015-08-06 00:11:45 657 0

原创 【leetcode刷题】栈的方式先序二叉树

问题: 5.1.1 Binary Tree Preorder Traversal 描述 Given a binary tree, return the preorder traversal of its nodes’ values. For example: Given b...

2014-08-29 17:03:30 576 0

原创 Symfony安装配置失败

本来因为Symfony的强大,所以想瞅瞅看看,无奈官网

2014-07-02 00:23:59 1735 0

原创 操作系统学习之进程通信(PCI)

MMIO(Memory mapping I/O)即内存映射I/O,它是PCI规范的一部分,I/O设备被放置在内存空间而不是I/O空间。从处理器的角度看,内存映射I/O后系统设备访问起来和内存一样。这样访问AGP/PCI-E显卡上的帧缓存,BIOS,PCI设备就可以使用读写内存一样的汇编指令完成,简...

2014-05-25 20:29:38 994 0

转载 vim下注释多行或重复操作的学习

今天在调试一个小脚本时想要注掉几行代码,:(. how?刚接触shell, vim, 还没习惯其思考方式。google了一下,最简单的就是vim中的查找替换了。  比如注释掉10到20行: :10,20s/^/^#/g   又想起来以前看过vim里有个录制宏的功能,温习了一下,步骤...

2014-05-21 23:12:46 959 0

转载 Chrome插件的学习入门

参考网页:http://www.ituring.com.cn/article/60134 我们准备编写一款显示用户计算机当前时间的扩展,这应该比Hello World有趣得多。设计思路是在浏览器的工具栏中显示一个时钟的图标,当用户点击这个图标时显示一个实时显示计算机时间的界面。 首先新建一...

2014-05-21 23:06:17 760 0

原创 搜索引擎xunsearch的配置、安装

前言 搜索引擎、文本识别这一块自己suo'ra

2014-05-21 23:01:24 1337 0

原创 Mac下Gradle环境的配置

1、下载 官网下载:http://www.gradle.org/get-started

2014-05-21 22:23:14 3248 0

转载 Mvn常用命令以及Ant常用命令比较

1、Maven常用命令 2、Ant常用命令

2014-05-21 22:11:37 1063 0

原创 WebGL开源项目研究之ViziCities

自己对地图、三维非常感兴趣,而一个偶然的机会

2014-05-21 20:26:41 1475 0

提示
确定要删除当前文章?
取消 删除