- 博客(12)
- 资源 (12)
- 收藏
- 关注
原创 flink streaming eventtime watermark
import org.apache.flink.api.common.functions.MapFunction;import org.apache.flink.api.java.tuple.Tuple2;import org.apache.flink.streaming.api.TimeCharacteristic;import org.apache.flink.streaming.api.datastream.DataStream;import org.apache.flink.streami.
2020-06-20 17:00:48 135
原创 flink 1.10.1的三种部署模式
首先准备好家伙下载flink 1.10.1https://mirror.bit.edu.cn/apache/flink/flink-1.10.1/flink-1.10.1-bin-scala_2.11.tgz 下载jdkhttps://download.oracle.com/otn/java/jdk/8u202-b08/1961070e4c9b4e26a04e7f5a083f551e/jdk-8u202-linux-x64.tar.gzlocal模式 tar -zxvf flink-1.10
2020-06-20 14:59:56 1170
原创 flink 1.10.0 streaming consumer kafka test
pom 依赖<properties> <flink-version>1.10.0</flink-version> </properties> <dependencies> <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-java</ar
2020-06-19 13:53:36 240
原创 又来写那个java提交spark-submit获取application_id的方法了,真实时这次
这里用到一个第三方的包,是github开源的地址在这https://github.com/zeroturnaround/zt-execmaven依赖 <dependency> <groupId>org.zeroturnaround</groupId> <artifactId>zt-exec</artifactId> <version>1.11</ve
2020-06-18 09:09:59 959
原创 git github使用小记
下载git安装好注册好github账号打开git-bash.exe这里支持linux命令首先,配置用户名和email,这两个和github的保持一致 git config --global user.name "xxx" git config --global user.emial"xxx@163.com"生成ssh的信息ssh-keygen -t rsa -C "xxxx@163.com"邮箱就是上面设置的邮箱一路回车ssh的pub里面的东西配置到github复
2020-06-18 09:04:36 151
原创 拿submit 提交的yarn id的更好方式
之前利用shell取的方式不太好,应为会等整个过程结束才能拿到appid因为我是在java调用启动脚本的那么直接在java那边获取实时输出进行判断就可以了shell 代码后面加上 2>&1java代码 BufferedReader br = new BufferedReader(new InputStreamReader(pro.getInputStream())); StringBuffer resultBuffer = new StringBuffer
2020-06-16 19:07:19 380
原创 shell spark-submit提交之后获取appid,并在程序中扫描状态
#首先看一下提交脚本#/sbin/bash/opt/cloudera/parcels/SPARK2/bin/spark2-submit \ export JAVA_HOME=/opt/jdk1.8.0_31TASK_TYPE=$1TASK_JSON=$2SPARK_CONFIG=$3appId=`$SPARK_CONFIG \"$TASK_JSON" \$TASK_TYPE \2>&1 | tee /dev/tty | grep -i "Submitting applic
2020-06-16 15:33:22 2063
原创 spark sql udf ,计算数学表式
前几天有个spark 任务特别的慢,原因是我写了一个udf,把一个对象作为构造函数的对象穿进去了这个udf的功能是为了实现,把传入的数学表达式(如:20*x/(20-x)),和传入的列的值做计算,把传入的列的值替换成x刚开始的想法就是直接用java提供的方法,就是开篇所说的,结果几十万的数据跑半小时,后面就放弃了最终做法就是,直接在udf写计算方法,也是网上参考了一位同行的我计算的都是double @Override public Double call(Double thi
2020-06-16 15:32:32 290
原创 spark udf 提示not serializable
20/06/08 16:41:06 INFO memory.MemoryStore: Block broadcast_0 stored as values in memory (estimated size 327.2 KB, free 912.0 MB)20/06/08 16:41:06 INFO memory.MemoryStore: Block broadcast_0_piece0 stored as bytes in memory (estimated size 30.1 KB, free 912
2020-06-16 15:31:12 841
原创 Spark sql 写分区表,设置format报错
####遇到一个问题。spark sql dataset 写入表的时候,我写的是一个用ymd分区的表,我想设置输出格式format(“hive”),然后报错了代码如下ds.write().partitionBy(partitionsStr) .option("path", hdfspath) .mode(SaveMode.Append).format("hive") .saveAsT
2020-06-16 15:30:34 1489
原创 Spark Submit提交时,Json字符串作为参数
#今天遇到一个把json作为参数 传入spark程序中的问题###原因如下,Spark 源码 中会对把}} 和 {{替换掉@VisibleForTesting public static String expandEnvironment(String var, Path containerLogDir) { var = var.replace(ApplicationConstants.LOG_DIR_EXPANSION_VAR, containerLogDir.toS
2020-06-16 15:29:49 845
原创 flink1.8.2 on yarn 运行在jdk1.7环境上
要知道flink是建立在jdk1.8上面的,奈何集群环境的是1.7flink-conf.yaml追加三行env.java.home: /opt/jdk1.8.0_31containerized.master.env.JAVA_HOME: /opt/jdk1.8.0_31containerized.taskmanager.env.JAVA_HOME: /opt/jdk1.8.0_31...
2020-06-16 15:27:50 713 1
doc2help破解版
2013-08-16
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人