2020年03月_陈同学：

12月 11月 05月 04月 03月

原创 scala学习笔记-方法、函数、方法和函数的区别、方法转换成函数

文章目录1：方法2：函数3：方法和函数的区别4：方法转换成函数1：方法语法：def 方法名(参数名:参数类型, 参数名:参数类型) : [return 返回值类型] = { // 方法体：一系列的代码}说明参数列表的参数类型不能省略返回值类型可以省略，由scala编译器自动推断返回值可以不写return，默认就是{}块表达式的值示例scala> ...

2020-03-31 16:29:34 235

原创 scala学习笔记-scala的条件表达式、快表达式、循环语句（for，while）

1：scala中的条件表达式条件表达式就是if表达式，if表达式可以根据给定的条件是否满足，根据条件的结果（真或假）决定执行对应的操作。scala条件表达式的语法和Java一样。//定义变量xscala> val x =1x: Int = 1//if表达式scala> val y =if(x>0) 1 else -1y: Int = 1//支持混合类型表达...

2020-03-31 15:22:13 291

原创 scala学习笔记-scala简介、REPL交互解释器、变量声明、数据类型

1：scala简介scala是运行在 JVM 上的多范式编程语言，同时支持面向对象和面向函数编程早期scala刚出现的时候，并没有怎么引起重视，随着Spark和Kafka这样基于scala的大数据框架的兴起，scala逐步进入大数据开发者的眼帘。scala的主要优势是它的表达性。官网地址：http://www.scala-lang.org2：scala的REPL交互式解释器Scal...

2020-03-31 14:55:07 668

原创 flink学习笔记-flink实时数仓-实时同步msql数据到hbase（mysql->max-well->kafka->flink->hbase）

为了解决公司数据统计，数据分析等各种问题，我们可以有很多手段，最常用的手段就是通过构建数据仓库的手段来实现我们的数据分析，数据挖掘等，其中，数据仓库基本上都是统计前一天的数据，或者最近一段时间的数据，这就决定了数据仓库一般都是使用离线的技术来实现，通过离线的技术手段，来实现前一天或者近一段时间的数据统计功能，为了解决数据统计的时效性问题，我们也可以通过实时的手段来构建数据仓库，通过流式API，结合...

2020-03-30 16:38:20 4258 5

原创 flink学习笔记-table与sql简介、编程开发及DataSet、DataStream与Table相互转换

1：Flink table以及SQL的基本介绍Apache Flink 具有两个关系型API：Table API 和SQL，用于统一流和批处理。Table API 是用于 Scala 和 Java 语言的查询API，允许以非常直观的方式组合关系运算符的查询，例如 select，filter 和 join。Flink SQL 的支持是基于实现了SQL标准的 Apache Calcite。无论...

2020-03-26 08:16:46 1009

原创 flink学习笔记-dataSet connector 集成hbase读写数据

Flink允许用户使用实现org.apache.hadoop.fs.FileSystem接口的任何文件系统。例如S3、 Google Cloud Storage Connector for Hadoop、 Alluxio、 XtreemFS、 FTP等各种文件系统Flink与Apache Hadoop MapReduce接口兼容，因此允许重用Hadoop MapReduce实现的代码使用H...

2020-03-25 18:20:41 1770

原创 flink学习笔记-dataSet参数传递：构造器传递、withParameters传递、全局参数传递。

在dataSet代码当中，经常用到一些参数，我们可以通过构造器的方式传递参数，或者使用withParameters方法来进行参数传递，或者使用ExecutionConfig来进行参数传递1：使用构造器来传递参数object FlinkParameter { def main(args: Array[String]): Unit = { val env=ExecutionEnv...

2020-03-25 17:03:23 1157

原创 flink学习笔记-dataSet算子：transformation算子、partition算子、sink算子

官网算子介绍：https://ci.apache.org/projects/flink/flink-docs-master/dev/batch/dataset_transformations.htmltransformation算子常用transformation算子Map：输入一个元素，然后返回一个元素，中间可以做一些清洗转换等操作FlatMap：输入一个元素，可以返回零个，...

2020-03-25 16:54:08 542

原创 flink学习笔记-dataSet内置数据源

1：基于文件数据源readTextFile(path) / TextInputFormat：逐行读取文件并将其作为字符串(String)返回readTextFileWithValue(path) / TextValueInputFormat：逐行读取文件并将其作为StringValue返回。StringValue是Flink对String的封装，可变、可序列化，一定程度上提高性能。r...

2020-03-25 16:32:49 329

原创 flink学习笔记-广播变量、累加器、分布式缓存

1：广播变量广播变量主要分为两种方式：dataStream当中的广播变量以及dataSet当中的广播变量，这两个地方的广播变量还有一定的不一样的各自的特性，一句话解释，可以理解为是一个公共的共享变量，我们可以把一个dataset 数据集广播出去，然后不同的task在节点上都能够获取到，这个数据在每个节点上只会存在一份，节约内存1.1：dataStream当中的广播分区将数据广播给所有的...

2020-03-25 09:20:30 462

原创 flink学习笔记-flink的DataStream集成kafka

对于实时处理当中，我们实际工作当中的数据源一般都是使用kafka，所以我们一起来看看如何通过Flink来集成kafka。flink提供了一个特有的kafka connector去读写kafka topic的数据。flink消费kafka数据，并不是完全通过跟踪kafka消费组的offset来实现去保证exactly-once的语义，而是flink内部去跟踪offset和做checkpoint去实现...

2020-03-24 14:31:44 597

原创 flink学习笔记-dataStream状态保存和恢复（state、checkPoint、State Backend、savePoint）

checkPoint保存数据如果一个task在处理过程中挂掉了，那么它在内存中的状态都会丢失，所有的数据都需要重新计算。从容错和消息处理的语义上(at least once, exactly once)，Flink引入了state和checkpoint。首先区分一下两个概念state：一个具体的task/operator的状态【state数据默认保存在java的堆内存中】checkpo...

2020-03-24 14:05:49 954

原创 flink学习笔记-如何利用waterMark解决乱序、延迟问题

watermark的作用watermark是用于处理乱序事件的，而正确的处理乱序事件，通常用watermark机制结合window来实现。我们知道，流处理从事件产生，到流经source，再到operator，中间是有一个过程和时间的。虽然大部分情况下，流到operator的数据都是按照事件产生的时间顺序来的，但是也不排除由于网络、背压等原因，导致乱序的产生（out-of-order或者说lat...

2020-03-24 11:09:35 1227

原创 flink学习笔记-flink中的三种time

针对stream数据中的时间，可以分为以下三种Event Time：事件产生的时间，它通常由事件中的时间戳描述。Ingestion time：事件进入Flink的时间Processing Time：事件被处理时当前系统的时间EventTime1.事件生成时的时间，在进入Flink之前就已经存在，可以从event的字段中抽取。2.必须指定watermarks（水位线）的生成方...

2020-03-23 21:11:27 581

原创 flink学习笔记-flink的window介绍、window聚合统计（增量，全量）

窗口类型汇总窗口的基本类型介绍tumbling windows：滚动窗口——没有数据重叠sliding windows：滑动窗口——有数据重复session windows：会话窗口 ——很少用这里就不赘述了Time Windowtime window又分为滚动窗口和滑动窗口，这两种窗口调用方法都是一样的，都是调用timeWindow这个方法，如果传入一个参数就是滚动窗...

2020-03-23 17:55:45 1969

原创 flink学习笔记-dataStream常用算子、自定义分区、自定义sink

flink当中对于实时处理，有很多的算子，我们可以来看看常用的算子主要有哪些，dataStream当中的算子主要分为三大类，Transformations：转换的算子，都是懒执行的，只有真正碰到sink的算子才会真正加载执行partition：对数据进行重新分区等操作Sink：数据下沉目的地官网算子介绍：https://ci.apache.org/projects/flink/flink...

2020-03-23 16:54:04 1314

原创 flink学习笔记-自定义数据源

1：socket数据源import org.apache.flink.streaming.api.scala.{DataStream, StreamExecutionEnvironment}import org.apache.flink.streaming.api.windowing.time.Timeobject FlinkSource1 { def main(args: Arr...

2020-03-23 10:35:33 773

原创 flink学习笔记-shell命令号调试flink实时、批处理任务

为了方便我们的开发调试，Flink支持通过shell命令行的方式来对我们的代码进行开发运行，类似于Spark的shell命令行对代码的调试是一样的，可以方便的对我们的代码执行结果进行跟踪调试，查验代码的问题所在Flink shell方式支持流处理和批处理。当启动shell命令行之后，两个不同的ExecutionEnvironments会被自动创建。使用senv(Stream)和benv(Bat...

2020-03-23 09:55:01 959

原创 flink学习笔记-flink学习的第一个程序

1：创建maven工程，导入jar包<dependencies>  <dependency> <groupId>org.apache.flink&lt...

2020-03-23 09:31:03 170

原创 flink学习笔记-flink on yarn的两种模式都学会了吗？

flink on yarn模式flink的任务也可以运行在yarn上面，将flnk的任务提交到yarn平台，通过yarn平台来实现我们的任务统一的资源调度管理，方便我们管理集群当中的CPU和内存等资源flink on yarn又分为两种模式1：第一种模式：单个yarn session模式这种方式需要先启动集群，然后在提交作业，接着会向yarn申请一块资源空间后，资源永远保持不...

2020-03-21 15:43:52 455

原创 flink学习笔记-Flink的standAlone轻松搞定啦

Flink的standAlone模式环境安装使用standalone模式，需要启动flink的主节点JobManager以及从节点taskManager服务及地址node1node2node3JobManager是否否TaskManager是是是第一步：更改配置文件修改node01服务器配置文件flink-conf.yamlnode01执...

2020-03-20 22:03:19 657

原创 flink学习笔记-flink的local模式安装部署

1、Flink的local模式部署安装在local模式下，不需要启动任何的进程，仅仅是使用本地线程来模拟flink的进程，适用于测试开发调试等，这种模式下，不用更改任何配置，只需要保证jdk8安装正常即可第一步：上传安装包并解压将编译之后的压缩包，上传到node01服务器的/kkb/soft路径下，然后进行解压tar -zxf flink-1.8.1.tar.gz -C /opt/ins...

2020-03-19 17:33:20 2649

原创 flink学笔记-flink重新编译、flink架构模型、部署运行模式

1：Flink重新编译由于实际生产环境当中，我们一般都是使用基于CDH的大数据软件组件，因此我们Flink也会选择基于CDH的软件组件，但是由于CDH版本的软件并没有对应的Flink这个软件安装包，所以我们可以对开源的Flink进行重新编译，然后用于适配我们对应的CDH版本的hadoop1.1：准备工作安装maven3版本及以上：省略安装jdk1.8：省略1.2：下载flink源...

2020-03-19 16:42:04 343

原创 hbase学习笔记-hbase二级索引

hbase表后期按照rowkey查询性能是最高的。rowkey就相当于hbase表的一级索引，但是在实际的工作中，我们做的查询基本上都是按照一定的条件进行查找，无法事先知道满足这些条件的rowkey是什么，正常是可以通过hbase过滤器去实现。但是效率非常低，这是由于查询的过程中需要在底层进行大量的文件扫描hbase的二级索引为了HBase的数据查询更高效、适应更多的场景，诸如使用非r...

2020-03-19 11:26:30 338

原创 hbase学习笔记-phoenix安装部署

phoenix安装部署准备需要先安装好hbase集群，phoenix只是一个工具，只需要在一台机器上安装就可以了1、下载安装包从对应的地址下载：http://mirrors.cnnic.cn/apache/phoenix/这里我们使用的是phoenix-4.8.2-HBase-1.2-bin.tar.gz2、上传解压tar -zxvf phoenix-4.8.2-HB...

2020-03-19 11:23:01 214

原创 hbase学习笔记-hbase集成hive

Hive提供了与HBase的集成，使得能够在HBase表上使用hive sql 语句进行查询插入操作以及进行Join和Union等复杂查询、同时也可以将hive表中的数据映射到Hbase中。1 整合配置1、修改hive-site.xml文件，添加配置属性 <property> <name>hbase.zookeeper.quor...

2020-03-19 11:03:24 119

原创 hbase学习笔记-bulkload方式批量加载数据到HBase

加载数据到HBase当中去的方式多种多样，我们可以使用HBase的javaAPI或者使用sqoop将我们的数据写入或者导入到HBase当中去，但是这些方式不是慢就是在导入的过程的占用Region资料导致效率低下，我们也可以通过MR的程序，将我们的数据直接转换成HBase的最终存储格式HFile，然后直接load数据到HBase当中去即可.优势（1）.导入过程不占用Region资源...

2020-03-19 10:18:23 595

原创 hbase学习笔记-过滤器

过滤器的类型很多，但是可以分为两大类——比较过滤器，专用过滤器过滤器的作用是在服务端判断数据是否满足条件，然后只将满足条件的数据返回给客户端；1 hbase过滤器的比较运算符LESS <LESS_OR_EQUAL <=EQUAL =NOT_EQUAL <>GREATER_OR_EQUAL >=GREATER >2 hbase过滤器的比较...

2020-03-19 09:54:42 185

原创 hbase学习笔记-增删改查操作

创建Maven工程，添加依赖 <dependencies> <dependency> <groupId>org.apache.hbase</groupId> <artifactId>hbase-client</artifactId> ...

2020-03-19 09:22:27 330

原创 hbase学习笔记-表预分区

hbase表的预分区当一个table刚被创建的时候，Hbase默认的分配一个region给table。也就是说这个时候，所有的读写请求都会访问到同一个regionServer的同一个region中，这个时候就达不到负载均衡的效果了，集群中的其他regionServer就可能会处于比较空闲的状态。解决这个问题可以用pre-splitting,在创建table的时候就配置好，生成多个region。...

2020-03-18 12:46:03 154

原创 hbase学习笔记-regiion拆分、合并

region 拆分机制region中存储的是大量的rowkey数据 ,当region中的数据条数过多的时候,直接影响查询效率.当region过大的时候.hbase会拆分region , 这也是Hbase的一个优点 .HBase的region split策略一共有以下几种：1、ConstantSizeRegionSplitPolicy0.94版本前默认切分策略当region大小大于...

2020-03-18 12:34:10 127

原创 hbase学习笔记-flush、compact机制

1 Flush机制（1）当memstore的大小超过这个值的时候，会flush到磁盘,默认为128M<property> <name>hbase.hregion.memstore.flush.size</name> <value>134217728</value></property>（2）当memst...

2020-03-18 12:14:38 444

原创 hbase学习笔记-数据存储原理、读写数据流程

1. hbase的数据存储原理一个HRegionServer会负责管理很多个region一个region包含很多个store划分规则一个列族就划分成一个store，如果一个表中只有1个列族，那么每一个region中只有一个store一个store里面只有一个memstorememstore是一块内存区域，数据会先写入到memstore进行缓冲，然后再把数据刷到磁盘...

2020-03-18 11:48:54 183

原创 hbase学习笔记-架构及原理

1.1 hbase的概念hbase基于Google的BigTable论文，是建立的hdfs之上，提供高可靠性、高性能、列存储、可伸缩、实时读写的分布式数据库系统。在需要实时读写随机访问超大规模数据集时，可以使用hbase。1.2 hbase的特点海量存储可以存储大批量的数据列式存储hbase表的数据是基于列族进行存储的，列族是在列的方向上的划分。极易扩展底...

2020-03-18 09:37:16 163

原创 hbase学习笔记-常用shell操作

1、进入Hbase客户端命令操作界面hbase shell2、查看帮助命令hbase(main):001:0> help3、查看当前数据库中有哪些表hbase(main):006:0> list4、创建一张表创建student表，包含base_f1、base_f2两个列族hbase(main):007:0> create 'student', 'bas...

2020-03-17 15:50:38 813

原创 hbase学习笔记-hbase集群安装部署

1、下载安装包http://archive.apache.org/dist/hbase2、规划安装目录/opt/hbase3、上传安装包到服务器4、解压安装包到指定的规划目录tar -zxvf hbase-2.0.0-bin.tar.gz -C /opt/bigdata5、重命名解压目录mv hbase-2.0.0 hbase6、修改配置文...

2020-03-17 15:08:43 142

Apache-Flink-Stateful-Computations-over-Data-Streams.pdf

Apache Flink Stateful Computations over Data Streams（Apache Flink 知识图谱）由 Apache Flink Committer 执笔，四位 PMC 成员审核，将 Flink 9 大技术版块详细拆分，突出重点内容并搭配全面的学习素材。PDF 版本内含大量补充链接，点击即可跳转。

2020-05-11

hive-hbase-handler-1.2.1.jar

Hive提供了与HBase的集成，使得能够在HBase表上使用hive sql 语句进行查询插入操作以及进行Join和Union等复杂查询、同时也可以将hive表中的数据映射到Hbase中

2020-03-19

HBase配置项说明及调优建议.xlsx

hbase 常用参数含义，默认值，调优建议（必须参数，split,compaction,blockcache,memstore flush,hlog,zookeeper,其他，等相参数名称、含义、默认值、调优建议）

2020-03-17

kylin使用文档

ylin二进制包中包含了一份用于测试的样例数据集，总共大小仅1MB左右，共计3张表，其中事实表有 10000条数据。因为数据规模较小，方便在虚拟机中进行快速实践和操作，用户可以自行搭建Hadoop Sandbox的虚拟机并快速部署kylin，然后导入该数据集进行试验。 kylin仅支持星型数据模型，这里用到的样例数据集就是一个规范的星型模型结构，它总共包含了3个数据表

2018-03-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人