mamls-CSDN博客

原创 spark streaming 通过log4j 统一输出日志到kafka

1.log4j 自定义输出到kafka appenderpublic class KafkaLog4jAppender2 extends AppenderSkeleton {private Producer producer = null;private String topic = null;private String brokerList = null;priva

2017-12-24 23:10:49 3422

原创 spark streaming 远程debug

--conf "spark.driver.extraJavaOptions=-agentlib:jdwp=transport=dt_socket,server=y,suspend=y,address=9999"

2017-12-01 20:27:16 442

原创 maven 脚本

E:\echo "msg..............................."cd E:\workspace_idea\prl\prl-seamsg\src\mainsvn updatecd E:\workspace_idea\prl\prl-seamsgcall E:\Maven\bin\mvn clean call E:\Maven\bin\mvn insta

2017-11-02 23:18:42 408

原创 Spark Streaming Accumulator 并发问题

同一个executor 中多线使用Accumulator数据不准确，偏少，主要是Accumulator 不支持并发。

2017-11-02 23:13:55 615

原创使用脚本发送命令到控制台

echo "start job --jid 2" | sqoop2echo "scan 'table_name', {STARTROW=>'aaaa',STOPROW=>'bbbb',COLUMNS => ['f:a','f:b']}" | hbase shell > 1.txt

2017-11-02 23:13:01 1308

原创安装JDK

下载JDKhttp://www.oracle.com/technetwork/java/javase/downloads/java-archive-javase8-2177648.html拷贝jdk-8u111-linux-x64.tar.gz ==> /optcd /opttar -zxvf jdk-8u111-linux-x64.tar.gz===配置JDK环境变量ec

2017-11-02 23:12:05 153

原创 spark submit 多个配置文件

多个配置文件用逗号分开--file a.txt,b.txt

2017-11-02 23:07:24 2244

原创 linux新加一块盘

1.fdisk -l2.fdisk /dev/vdbm->p->n->p(primary partition)->1->enter->enter->w3.格式化mkfs.ext4 /dev/vdb4.mountmkdir /datamount /dev/vdb /data/5.下面的操作以便重启机器也能看到磁盘。blkid /dev/vdb/dev/vdb

2017-10-17 23:01:42 276

原创 CDH安装1(CM安装)

设置HOST======================================================================================================================所有节点centos 6.xecho NETWORKING=yes >> /etc/sysconfig/networkecho HOST

2017-10-17 23:00:32 346

原创如何让CDH 使用指定JDK

1.自定义安装JDK，并配置环境变量。2.在安装Cloudera Manager时，必须有指定的JDK，一般版本是在http://archive.cloudera.com/cm5/redhat/7/x86_64/cm/5.10.1/RPMS/x86_64/目录下。3.在图形化界面安装CDH时，不选择安装JDK。4.安装成功之后，修改所有主机配置中的Java Home Directory

2017-10-17 22:59:18 7447

原创 sqoop1 脚本示例

start='sqoop import 'oracle_param='--connect jdbc:oracle:thin:@10.10.10.10:1521:ccd --username ccd --password 123456 'comm_param='--fields-terminated-by "\001" -m 1 'comm_cmd=$start$oracle_para

2017-10-17 22:38:51 347

原创 sqoop2 尝试

进入客户端 sqoop2show connectorshow linkshow jobupdate link -lid 5update job -jid 31.create link hdfs linkcreate link --cid 3 Name: hdfsHDFS URI: ->hdfs://CDH1:8020ora

2017-10-17 22:32:37 346

原创 kafka 创建topic

bin/kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 3 --partitions 3 --topic test09527

2017-09-22 23:15:02 1080

原创 hbase 将查询结果写入文件

echo "scan 'tablename', {LIMIT=>1}" | hbase shell > hbaseout1.txt

2017-09-22 23:13:57 3686 1

原创 spark 算子回调函数实现类中使用集合作为实例变量

在spark 算子中分配的空间，回到driver中，不被认可，因为自己分配的空间不是分布式的。比如以下代码中,到Driver中获取ForeachImpl的map 永远是空map.

2017-09-22 22:15:03 457

原创 INSERT OVERWRITE DIRECTORY，当map 或者reduce 数量不一样多时不会删除之前的文件，MR执行架构有变化时，

INSERT OVERWRITE DIRECTORY，当map 或者reduce 数量不一样多时不会删除之前的文件，MR执行架构有变化时，

2017-09-22 22:14:02 1570

原创 netstat -lnt

Active Internet connections (only servers)netstat -lantp|grep 5672|grep 127

2017-09-22 22:13:36 1135

原创 kafka 0.8 0.9 offset 问题

为啥flume1.7那边抽取kafka里面的数据，kafkamanage 里面看不到groupID消费者及groupID、以及offset 管理，都是由客户端API操作的？我们那边虽然升级了kafka从0.8到0.9，但是客户端还是老的API，将OFFSET维护在ZK中FLUME将OFFSET维护在 _consumer_offsets 这个topic中，而老的kafkamanage

2017-09-22 22:11:15 922

原创 HIVE UDAF 中的map对象及reduce对象(GenericUDAFEvaluator)

同一个reducer在HIVE UDAF中的buffer始终是一个对象，调用顺序是new==>init==>reset==>merge==>merge==>merge==>terminate merge的个数，是有多少个mapper用了同一个key。一次循环处理一个key。reset==>merge==>merge==>merge==>terminatereset==>merge

2017-09-22 22:10:09 769

原创 hbase scan startrow endrow 是否包括

hbase scan scan 'vehicle_mt_data',{STARTROW =>'1006037879829287918765',ENDROW =>'1006037879829287919375'}结果包括STARTROW 本身，不包括ENDROW本身，使用JAVA API 也是一样逻辑。

2017-09-22 22:08:43 12324

原创 ArrayList 与 LinkedList remove方法

如果使用下标操作remove(index)，ArrayList明显有优势，尤其下表是在LinkedList中间的时候，头尾效率还差不了太多。如果使用元素操作remove(Object)，remove(index)，两种List都要遍历后才可以删除，LinkedList优势就很明显了

2017-09-22 22:08:02 2922

原创 linux系统启动了多久

cat /proc/uptime| awk -F. '{run_days=$1 / 86400;run_hour=($1 % 86400)/3600;run_minute=($1 % 3600)/60;run_second=$1 % 60;printf("系统已运行：%d天%d时%d分%d秒",run_days,run_hour,run_minute,run_second)}'

2017-09-22 22:05:38 269

原创 hive shell的入口

org.apache.hadoop.hive.cli.CliDriver

2017-09-22 22:04:36 265

原创 hive 查询结果压缩

set hive.exec.compress.output=true;set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;SnappyCodec

2017-09-22 22:04:11 445

原创 avro 生成java bean

java -jar avro-tools-1.7.7.jar compile schema v0200.avsc .

2017-09-22 22:03:45 651

翻译 G1垃圾回收器

推荐使用 G1 的场景(Recommended Use Cases)G1的首要目标是为需要大量内存的系统提供一个保证GC低延迟的解决方案. 也就是说堆内存在6GB及以上,稳定和可预测的暂停时间小于0.5秒.如果应用程序具有如下的一个或多个特征,那么将垃圾收集器从CMS或ParallelOldGC切换到G1将会大大提升性能.Full GC 次数太频繁或者消耗时间太

2017-09-22 22:02:35 215

原创 spark streaming 从kafka拉数据限速

--conf spark.streaming.kafka.maxRatePerPartition=10000 \单位数据条数

2017-09-22 22:01:44 3889

原创 rdd 操作的回调函数中不允许有其他rdd的操作

RDD transformations and actions can only be invoked by the driver

2017-09-22 22:01:02 887

原创 parquet file compress问题

AvroParquetOutputFormat.setOutputCompressorClass(job, SnappyCodec.class);SnappyCodec.class = org.apache.parquet.hadoop.codec.SnappyCodec 有效，但是查询时一个snappy文件会被多个mapper处理SnappyCodec.class = org.ap

2017-09-22 22:00:13 435

原创查看hive分区挂载的路径

describe formatted table_name partition (ptdate=20130909)

2017-09-21 22:30:45 6442

原创 flume 配置插件

插件目录/var/lib/flume-ng/plugins.d plugins.d/plugins.d/k1/plugins.d/k1/lib/xxx.jarplugins.d/k1/libext/plugins.d/k1/native/其中k1 是指中的sinksa1.sources = s1a1.channels = c1a1.sinks = k1

2017-09-21 22:19:57 488

原创修改 linux 文件时间

stat filenametouch -t 201606020824.54 filename

2017-09-21 22:14:30 258

原创查看CDH各组件版本

/var/www/html/clouderamanager/manifest.json

2017-09-21 22:12:48 12599 2

原创 spark 进程

History Server 上有一个相关进程，启动用户是spark，父进程是cloudera-scm-agent。提交spark程序的机器有一个进程，启动用户是提交程序的用户，这里是hdfs，父进程是1，系统内核进程。线程可以直接看到SparkSubmit相关信息。Executor(Streaming任务) 进程的启动过程：(yarn-cluster模式的Driver 也是同样过程。)

2017-09-21 22:11:32 1592

原创 syntax error near unexpected token `

shell 脚本执行错误：syntax error near unexpected token `很有可能是因为windows 编辑的文件上传到linux的原因。

2017-09-21 22:09:35 711

原创 java程序远程debug

JAVA_OPTS="-Xmx20m -Xdebug -Xrunjdwp:transport=dt_socket,address=7474,server=y,suspend=y"

2017-09-21 22:08:49 359

原创 update 命令

显示系统已经运行了多长时间，它依次显示下列信息：当前时间、系统已经运行了多长时间、目前有多少登陆用户、系统在过去的1分钟、5分钟和15分钟内的平均负载。

2017-09-21 22:07:54 2164

原创修改所属用户和组

chown -R hdfs.hadoop data

2017-09-21 22:07:22 1139

原创 __consumer_offsets topic got

/usr/local/kafka_2.10-0.9.0.1/bin/kafka-run-class.sh kafka.tools.DumpLogSegments --print-data-log --files /root/00000000000000000001.log

2017-09-21 22:06:36 245

原创 hbase 简单的查询过程

hbase region server 的信息都存放在hbase:meta表中，查询时先根据rowkey到该表中找到数据所在的region server，然后到数据所在的region server 上捞出数据。之前版本的这些信息存在ZK、root 表中。scan 'hbase:meta', {COLUMN=>'info:server'} 取出所有regionserver，包括hbase:

2017-09-21 22:03:56 2133

空空如也

空空如也