- 博客(8)
- 资源 (20)
- 收藏
- 关注
原创 spark on yarn日志切割
由于spark on yarn的日志会在stderr里面一直追加,而且streaming又是长应用,那么stderr会一直增长。解决办法就是把stderr按天切割,这样我们就可以删除之前的日志了。1. 首先,把集群中的hadoop的log4j文件/etc/hadoop/conf/log4j.properties添加如下两行:log4j.additivity.com.kingsoft = f
2015-03-26 12:01:17 2009
原创 hiveSQL记录
CREATE EXTERNAL TABLE ks3_nginx_pv(host_ip string,idc string,upstream_ip string,bucket_owner string,`bucket` string,time bigint,time_id int,remote_ip st
2015-03-25 19:55:28 1483
原创 start Java程序的脚本
#/bin/sh####################. /etc/profileSCRIPT_NAME=$0home=/data/apps/real_calculation_kssNodeNginx#define some variouslibdir=${home}/liblogdir=${home}/logname=KSSNodeRealTim
2015-03-24 15:13:18 806
转载 spark内核简介
1、Spark介绍Spark是起源于美国加州大学伯克利分校AMPLab的大数据计算平台,在2010年开源,目前是Apache软件基金会的顶级项目。随着Spark在大数据计算领域的暂露头角,越来越多的企业开始关注和使用。2014年11月,Spark在Daytona Gray Sort 100TB Benchmark竞赛中打破了由Hadoop MapReduce保持的排序记录。Spark利用1
2015-03-18 15:27:34 748
原创 CDH5.1.0编译spark-assembly包来支持hive
原生的spark assembly jar是不依赖hive的,如果要使用spark hql必须将hive相关的依赖包打到spark assembly jar中来。打包方法:假设已经装好了maven,1添加环境变量,如果jvm的这些配置太小的话,可能导致在编译过程中出现OOM,因此放大一些:export MAVEN_OPTS="-Xmx2g -XX:MaxPermSize=5
2015-03-16 15:47:07 3340 1
原创 Linux文件做软链
用flume做数据采集的时候会遇到一种情况,就是业务端打印日志的时候,日志的目录不统一,那么我们在配置flume的配置文件时,就要根据不同的机器做不同的配置,很麻烦。我们用软链可以解决这个问题。hour=`date +%Y-%m-%d.%H`file=kvdbnode_$hour.log.TRACEsudo ln -sf /data/apps/kvdb/log/kvdb/$file
2015-03-16 14:44:04 835
转载 hadoop put内部调用,hdfs写文件流程
HDFS是一个分布式文件系统,在HDFS上写文件的过程与我们平时使用的单机文件系统非常不同,从宏观上来看,在HDFS文件系统上创建并写一个文件,流程如下图(来自《Hadoop:The Definitive Guide》一书)所示:具体过程描述如下:Client调用DistributedFileSystem对象的create方法,创建一个文件输出流(FSDataOutputStr
2015-03-10 15:58:50 5180
原创 sort awk comm命令
今天遇到一个问题,有两个文件,都是hive输出的,字段以table分开,需要两个文件里面的第10个字段,然后找出在第一个文件里的而不再第二个里面的内容。这个问题需要分几个步骤去做:1. 分别取出两个文件的第10个字段重定向到不同的文件中。cat aa.txt |awk '{print $10}' >aa1.txtcat bb.txt |awk '{print $10}'
2015-03-03 14:45:24 729
Myeclipse好用的几款插件
2013-11-29
artDialog页面弹出框
2012-08-15
Google Maps Javascript API V3开发包
2012-08-03
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人