2020年01月_BF-LoneSilverWind

原创 Flink 分布式缓存代码

DistributeCacheTest.javapackage com.xxxxx.flink.batch;import org.apache.commons.io.FileUtils;import org.apache.flink.api.common.functions.RichMapFunction;import org.apache.flink.api.java.Executio...

2020-01-17 09:38:17 221

原创 Flink累加器代码

AccumulatorTest.javapackage com.xxxxx.flink.batch;import org.apache.flink.api.common.JobExecutionResult;import org.apache.flink.api.common.accumulators.IntCounter;import org.apache.flink.api.comm...

2020-01-17 09:35:37 216

原创 Flink 广播变量Broadcast 代码

package com.xxxxx.flink.batch;import org.apache.flink.api.common.functions.RichFilterFunction;import org.apache.flink.api.java.ExecutionEnvironment;import org.apache.flink.api.java.operators.DataS...

2020-01-17 09:31:56 353

原创 Flink 整理

------概括1个低延迟,高吞吐,统一的大数据计算引擎达到毫秒级延迟金融级的数据处理能力因为:Flink提供了一个Exactly-once(只执行一次)的一致性语义。保证了数据的正确性。flink还提供很多高级的功能。比如它提供了有状态的计算，支持状态管理，支持强一致性的数据语义以及支持Event Time,WaterMark对消息乱序的处理。------大数据计算引擎...

2020-01-16 21:26:57 256

原创求每分钟里点击量前3的热门商品 Flink java代码

求每分钟里点击量前3的热门商品数据示例:UserBehavior1.csv用户ID,商品ID,商品类目ID,用户行为,发生时间58,16,5,fav,1569866397000834,22,0,buy,156986639700056,33,0,cart,1569866397000162,43,1,pv,1569866397000由于数据过多不展示全部HotItems.java...

2020-01-16 21:12:16 495

原创 Backpressure 背压

背压概念源于工程概念在数据流从上游生产者向下游消费者传输的过程中，上游生产速度大于下游消费速度，导致下游的 Buffer 溢出，这种现象就叫做 Backpressure...

2020-01-16 19:30:44 153

原创 Flink的 standalone环境 & Yarn环境搭建

standalone1.基本操作解压flinktar -zxvf flink-1.7.1-bin-hadoop26-scala_2.11.tgz移动到指定目录mv flink-1.7.1 /opt/sxt/如上图所示 flink权限需要修改修改所属人/组 chown root:root -R flink-1.7.1/修改权限 chmod 755 -R flink-1....

2020-01-16 09:08:12 569

原创 IDEA 代码生成jar包

File → Project Settings → Artifacts +选择jar → empty起名点击 + 之后选择Module Output因为这里linux虚拟机上安装的flink有jar包我们这里就不打包flink本身的jar包了点击ok点击build → Build Artifactsrebuild完成...

2020-01-15 20:05:54 368

原创控制台 Job execution failed 报错

Exception in thread “main” org.apache.flink.runtime.client.JobExecutionException: Job execution failed.原因原因:代码中使用了socket作为DataSource,如果socket监听的端口没有nc -lk 9999,就会报错9999端口是代码中指定的解决在节点中开启端口即可nc ...

2020-01-15 10:30:05 4206 1

原创 Kylin - 05 cuboid以及cube优化

Cuboid = one combination of dimensions Cube = all combination of dimensions (all cuboids)按照dimension(维度)大小顺序排序，从Base Cuboid开始，依次基于上一层Cuboid的结果进行再聚合。每一层的计算都是一个单独的Map Reduce（Spark）任务。理论上来说，一个N维的Cub...

2020-01-14 19:48:09 495

原创 Kylin - 03 Kylin的使用

3.1简单案例具体操作步骤通过同步数据源建立project->建立model->建立cube->build。3.1.1 导入Hive表Hive执行如下操作create database if not exists sxt_kylin;use sxt_kylin;create table kylin_sale(id int,day date,market ...

2020-01-14 18:44:08 268

原创 Kylin - 04 增量Cube

Cube划分为多个Segment，每个Segment用起始时间和结束时间来标志。Segment代表一段时间内源数据的预计算结果。在大部分情况下一个Segment的起始时间等于它之前那个Segment的结束时间，同理，它的结束时间等于它后面那个Segment的起始时间。同一个Cube下不同的Segment除了背后的源数据不同之外，其他如结构定义、构建过程、优化方法、存储方式等都完全相同。4....

2020-01-14 09:10:02 289

原创 Kylin - 02 Kylin集群安装部署

修改Kylin对应的Hbase版本Kylin 2.5.0 Hbase 1.3.5hbase-env.sh修改vim hbase-env.sh修改jdk版本注释jdk差异代码关闭自动zookeeper自动管理修改hbase-site.xmlvim hbase-site.xml按之前版本配置可直接拷贝hdfs-site.xmlcp /opt/sxt/hbase-0.9...

2020-01-13 21:39:01 283

原创 Kylin - 01 Kylin简介

1.1 核心概念数据仓库，OLAP与OLTP，维度和度量，事实表和维度表。星型模型和雪花模型。1.1.1 数据仓库DW这是商业智能（BI）的核心部分，主要是将不同数据源的数据整合到一起，通过多维分析为企业提供决策支持、报表生成等。存入数据仓库的资料必定包含时间属性。数据仓库和数据库主要区别：用途不同数据库数据仓库面向事务面向分析存储在线的业务数据，对上层业务改...

2020-01-13 16:22:46 315

原创 0.4 Hadoop-HA 搭建

搭建Hadoop-HA配置传输解压拷贝--语法:--解压hadooptar包tar -zxf hadoop-2.6.5.tar.gz--移动解压文件目录 mv hadoop-2.6.5 /opt/sxt/修改.sh配置文件--进入hadoop配置文件目录cd /opt/sxt/hadoop-2.6.5/etc/hadoop/修改.sh文件的JAVA_HOME配置vi...

2020-01-10 21:07:50 229

原创 0.3 Hadoop高可用集群搭建

搭建高可用集群搭建Zookeeper准备三台相互免秘钥的虚拟机上传zookeeper 解压移动解压zookeeper的tar包--语法:tar -zxf zookeeper-3.4.6.tar.gz 移动zookper目录--语法:mv zookeeper-3.4.6 /opt/sxt/修改配置文件zoo.cfg进入zookeeper配置文件目录--语法示例:c...

2020-01-10 21:06:42 110

原创 0.2 Hadoop完全分布式搭建

搭建完全分布式(练习用)主机相互免秘钥3台主机分别生成自己的秘钥对--语法:ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa将自己的公钥拷贝给别人--语法:ssh-copy-id root@192.168.241.211 ~/.ssh/id_rsa.pubssh-copy-id root@192.168.241.212 ~/.ssh/id_rsa...

2020-01-10 21:04:21 120

原创 HDFS读写数据流程

HDFS读写数据流程写数据流程就是将客户端的数据上传到HDFS写数据宏观流程-客户端向HDFS发送写数据请求 --hdfs dfs -put tomcat.tar.gz /xxxxx/gy -hdfs通过rpc调用nn的create方法 --nn首先检查是否有足够的空间权限等条件创建这个文件,或者这个路径是否已经存在 ---没有：直接抛出对应的异常 ---有：NN...

2020-01-10 21:02:12 182

原创 0.1 Hadoop 伪分布式搭建 & 测试

伪分布式搭建准备hadoop的tar包下载地址:https://archive.apache.org/dist/hadoop/common/单机的免秘钥ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsassh-copy-id root@192.168.241.210 ~/.ssh/id_rsa.pub把公钥发送给自己登录本机测试ssh root@...

2020-01-10 20:59:43 120

原创 Spark优化

1. 资源调优1）在部署spark集群中指定资源分配的默认参数在spark安装包的conf下spark-env.shSPARK_WORKER_CORESSPARK_WORKER_MEMORYSPARK_WORKER_INSTANCES 每台机器启动worker数2）在提交Application的时候给当前的Application分配更多的资源提交命令选项：（在提交Applica...

2020-01-10 18:56:48 179

原创 UDF & UDAF & UDTF区别

UDF:用户自定义函数 → 1对1UDAF:用户自定义聚合函数 → 1对多UDTF: 用户自定义生成函数 → 多对1

2020-01-09 21:02:43 186

原创 Spark广播变量 Scala&Java版本代码格式

Scala版本定义发送广播变量:val broadcast = sparkContext.broadcast(…)获取广播变量:broadcast.valueJava版本定义发送广播变量:Broadcast<?> blackname = sparkContext.broadcast(…);获取广播变量:broadcast.getValue();...

2020-01-09 20:36:31 259

原创 Sparkstream2.3 + Kafka0.11整合

kafka 0.11版本改变(0.10及以上)kafka 0.8.2版本消费者offset存储在zookeeper中，对于zookeeper而言每次写操作代价是很昂贵的(过半机制)不像kafka的高吞吐，而且zookeeper集群是不能扩展写能力。kafka 0.11版本默认使用新的消费者api ,消费者offset会更新到一个kafka自带的topic【__consumer_offsets】中...

2020-01-04 16:06:45 386

原创 SparkStreaming算子作用整理

1. foreachRDD一种转换算子foreachRDD作用于DStream中每一个时间间隔的RDD，foreachPartition作用于每一个时间间隔的RDD中的每一个partition，foreach作用于每一个时间间隔的RDD中的每一个元素。官网解析:最常用的输出操作需要一个函数作为参数，函数作用于DStream中的每一个RDD函数将RDD中的数据输出到外部系统，如文件、...

2020-01-04 15:46:09 320

原创 transform - (SparkStreaming算子)

transform一种转换算子应用在DStream上，可以用于执行任意的RDD到RDD的转换操作。他可以用于实现，DStream API中所没有提供的操作。package com.shsxt.spark.scalaimport org.apache.spark.SparkConfimport org.apache.spark.streaming.{Seconds, StreamingC...

2020-01-02 21:21:22 193

原创 SparkStreaming2.2 + Kafka0.8

SparkStreaming2.2(包含以前版本)+Kafka0.81. receiver模式(不管需不需要都会传输数据)receiver模式原理图receiver模式流程:在SparkStreaming程序运行起来后，Executor中会有receiver task接收kafka推送过来的数据。数据会被持久化，默认级别为MEMORY_AND_DISK_SER_2,这个级别也可以...

2020-01-01 21:02:23 199

原创 SparkStreaming03 Driver HA 配置

Driver HA这里指的是 Standalone或者Mesos框架的 cluster模式的配置SparkStreaming是7*24小时(指不间断)运行，Driver只是一个简单的进程，有可能挂掉，所以实现Driver的HA就有必要如果使用的是Client模式就无法实现Driver HA ，我们这里针对的是cluster模式。Yarn平台的cluster模式提交任务，AM(A...

2020-01-01 19:09:30 207

原创需要详细的注释 (SparkStreaming-算子-窗口操作) Operator_Window 代码

package com.xxxxx.java.streaming.transform_operator;import org.apache.spark.SparkConf;import org.apache.spark.api.java.function.FlatMapFunction;import org.apache.spark.api.java.function.Function2;...

2020-01-01 16:22:38 161

BF-Lone Silver Wind 的博客