spark on yarn日志切割

由于spark on yarn的日志会在stderr里面一直追加,而且streaming又是长应用,那么stderr会一直增长。解决办法就是把stderr按天切割,这样我们就可以删除之前的日志了。 1. 首先,把集群中的hadoop的log4j文件/etc/hadoop/conf/log4j.pr...

2015-03-26 12:01:17

阅读数 1484

评论数 0

hiveSQL记录

CREATE EXTERNAL TABLE ks3_nginx_pv( host_ip string, idc string, upstream_ip string, bucket_owner string, `bucket` string, ...

2015-03-25 19:55:28

阅读数 1167

评论数 0

start Java程序的脚本

#/bin/sh ################### #. /etc/profile SCRIPT_NAME=$0 home=/data/apps/real_calculation_kssNodeNginx #define some various libdir=$...

2015-03-24 15:13:18

阅读数 656

评论数 0

spark内核简介

1、Spark介绍 Spark是起源于美国加州大学伯克利分校AMPLab的大数据计算平台,在2010年开源,目前是Apache软件基金会的顶级项目。随着Spark在大数据计算领域的暂露头角,越来越多的企业开始关注和使用。2014年11月,Spark在Daytona Gray Sort 100...

2015-03-18 15:27:34

阅读数 607

评论数 0

CDH5.1.0编译spark-assembly包来支持hive

原生的spark assembly jar是不依赖hive的,如果要使用spark hql必须将hive相关的依赖包打到spark assembly jar中来。打包方法: 假设已经装好了maven, 1添加环境变量,如果jvm的这些配置太小的话,可能导致在编译过程中出现OOM,因此放大一些:...

2015-03-16 15:47:07

阅读数 3093

评论数 1

Linux文件做软链

用flume做数据采集的时候会遇到一种情况,就是业务端打印日志的时候,日志的目录不统一,那么我们在配置flume的配置文件时,就要根据不同的机器做不同的配置,很麻烦。我们用软链可以解决这个问题。 hour=`date +%Y-%m-%d.%H` file=kvdbnode_$hour.log....

2015-03-16 14:44:04

阅读数 635

评论数 0

hadoop put内部调用,hdfs写文件流程

HDFS是一个分布式文件系统,在HDFS上写文件的过程与我们平时使用的单机文件系统非常不同,从宏观上来看,在HDFS文件系统上创建并写一个文件,流程如下图(来自《Hadoop:The Definitive Guide》一书)所示: 具体过程描述如下: Client调用Distrib...

2015-03-10 15:58:50

阅读数 3529

评论数 0

sort awk comm命令

今天遇到一个问题,有两个文件,都是hive输出的,字段以table分开,需要两个文件里面的第10个字段,然后找出在第一个文件里的而不再第二个里面的内容。 这个问题需要分几个步骤去做: 1. 分别取出两个文件的第10个字段重定向到不同的文件中。 cat aa.txt |awk '{pr...

2015-03-03 14:45:24

阅读数 619

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭