2015年03月_KingBoxing

09月 08月 07月 04月 03月 02月 01月

原创 spark on yarn日志切割

由于spark on yarn的日志会在stderr里面一直追加，而且streaming又是长应用，那么stderr会一直增长。解决办法就是把stderr按天切割，这样我们就可以删除之前的日志了。1. 首先，把集群中的hadoop的log4j文件/etc/hadoop/conf/log4j.properties添加如下两行：log4j.additivity.com.kingsoft = f

2015-03-26 12:01:17 2009

原创 hiveSQL记录

CREATE EXTERNAL TABLE ks3_nginx_pv(host_ip string,idc string,upstream_ip string,bucket_owner string,`bucket` string,time bigint,time_id int,remote_ip st

2015-03-25 19:55:28 1483

原创 start Java程序的脚本

#/bin/sh####################. /etc/profileSCRIPT_NAME=$0home=/data/apps/real_calculation_kssNodeNginx#define some variouslibdir=${home}/liblogdir=${home}/logname=KSSNodeRealTim

2015-03-24 15:13:18 806

转载 spark内核简介

1、Spark介绍Spark是起源于美国加州大学伯克利分校AMPLab的大数据计算平台，在2010年开源，目前是Apache软件基金会的顶级项目。随着Spark在大数据计算领域的暂露头角，越来越多的企业开始关注和使用。2014年11月，Spark在Daytona Gray Sort 100TB Benchmark竞赛中打破了由Hadoop MapReduce保持的排序记录。Spark利用1

2015-03-18 15:27:34 748

原创 CDH5.1.0编译spark-assembly包来支持hive

原生的spark assembly jar是不依赖hive的，如果要使用spark hql必须将hive相关的依赖包打到spark assembly jar中来。打包方法：假设已经装好了maven,1添加环境变量，如果jvm的这些配置太小的话，可能导致在编译过程中出现OOM，因此放大一些：export MAVEN_OPTS="-Xmx2g -XX:MaxPermSize=5

2015-03-16 15:47:07 3340 1

原创 Linux文件做软链

用flume做数据采集的时候会遇到一种情况，就是业务端打印日志的时候，日志的目录不统一，那么我们在配置flume的配置文件时，就要根据不同的机器做不同的配置，很麻烦。我们用软链可以解决这个问题。hour=`date +%Y-%m-%d.%H`file=kvdbnode_$hour.log.TRACEsudo ln -sf /data/apps/kvdb/log/kvdb/$file

2015-03-16 14:44:04 835

转载 hadoop put内部调用，hdfs写文件流程

HDFS是一个分布式文件系统，在HDFS上写文件的过程与我们平时使用的单机文件系统非常不同，从宏观上来看，在HDFS文件系统上创建并写一个文件，流程如下图（来自《Hadoop：The Definitive Guide》一书）所示：具体过程描述如下：Client调用DistributedFileSystem对象的create方法，创建一个文件输出流（FSDataOutputStr

2015-03-10 15:58:50 5180

原创 sort awk comm命令

今天遇到一个问题，有两个文件，都是hive输出的，字段以table分开，需要两个文件里面的第10个字段，然后找出在第一个文件里的而不再第二个里面的内容。这个问题需要分几个步骤去做：1. 分别取出两个文件的第10个字段重定向到不同的文件中。cat aa.txt |awk '{print $10}' >aa1.txtcat bb.txt |awk '{print $10}'

2015-03-03 14:45:24 729