自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

陈同学

勤奋不是马不停蹄,而是有效利用手头的时间;努力不是一味埋头苦干,而是用智慧解决问题。

  • 博客(36)
  • 资源 (4)
  • 收藏
  • 关注

原创 scala学习笔记-方法、函数、方法和函数的区别、方法转换成函数

文章目录1:方法2:函数3:方法和函数的区别4:方法转换成函数1:方法语法:def 方法名(参数名:参数类型, 参数名:参数类型) : [return 返回值类型] = { // 方法体:一系列的代码}说明参数列表的参数类型不能省略返回值类型可以省略,由scala编译器自动推断返回值可以不写return,默认就是{}块表达式的值示例scala> ...

2020-03-31 16:29:34 235

原创 scala学习笔记-scala的条件表达式、快表达式、循环语句(for,while)

1:scala中的条件表达式条件表达式就是if表达式,if表达式可以根据给定的条件是否满足,根据条件的结果(真或假)决定执行对应的操作。scala条件表达式的语法和Java一样。//定义变量xscala> val x =1x: Int = 1//if表达式scala> val y =if(x>0) 1 else -1y: Int = 1//支持混合类型表达...

2020-03-31 15:22:13 291

原创 scala学习笔记-scala简介、REPL交互解释器、变量声明、数据类型

1:scala简介scala是运行在 JVM 上的多范式编程语言,同时支持面向对象和面向函数编程早期scala刚出现的时候,并没有怎么引起重视,随着Spark和Kafka这样基于scala的大数据框架的兴起,scala逐步进入大数据开发者的眼帘。scala的主要优势是它的表达性。官网地址:http://www.scala-lang.org2:scala的REPL交互式解释器Scal...

2020-03-31 14:55:07 668

原创 flink学习笔记-flink实时数仓-实时同步msql数据到hbase(mysql->max-well->kafka->flink->hbase)

为了解决公司数据统计,数据分析等各种问题,我们可以有很多手段,最常用的手段就是通过构建数据仓库的手段来实现我们的数据分析,数据挖掘等,其中,数据仓库基本上都是统计前一天的数据,或者最近一段时间的数据,这就决定了数据仓库一般都是使用离线的技术来实现,通过离线的技术手段,来实现前一天或者近一段时间的数据统计功能,为了解决数据统计的时效性问题,我们也可以通过实时的手段来构建数据仓库,通过流式API,结合...

2020-03-30 16:38:20 4258 5

原创 flink学习笔记-table与sql简介、编程开发及DataSet、DataStream与Table相互转换

1:Flink table以及SQL的基本介绍Apache Flink 具有两个关系型API:Table API 和SQL,用于统一流和批处理。Table API 是用于 Scala 和 Java 语言的查询API,允许以非常直观的方式组合关系运算符的查询,例如 select,filter 和 join。Flink SQL 的支持是基于实现了SQL标准的 Apache Calcite。无论...

2020-03-26 08:16:46 1009

原创 flink学习笔记-dataSet connector 集成hbase读写数据

Flink允许用户使用实现org.apache.hadoop.fs.FileSystem接口的任何文件系统。例如S3、 Google Cloud Storage Connector for Hadoop、 Alluxio、 XtreemFS、 FTP等各种文件系统Flink与Apache Hadoop MapReduce接口兼容,因此允许重用Hadoop MapReduce实现的代码使用H...

2020-03-25 18:20:41 1770

原创 flink学习笔记-dataSet参数传递:构造器传递、withParameters传递、全局参数传递。

在dataSet代码当中,经常用到一些参数,我们可以通过构造器的方式传递参数,或者使用withParameters方法来进行参数传递,或者使用ExecutionConfig来进行参数传递1:使用构造器来传递参数object FlinkParameter { def main(args: Array[String]): Unit = { val env=ExecutionEnv...

2020-03-25 17:03:23 1157

原创 flink学习笔记-dataSet算子:transformation算子、partition算子、sink算子

官网算子介绍:https://ci.apache.org/projects/flink/flink-docs-master/dev/batch/dataset_transformations.htmltransformation算子常用transformation算子Map:输入一个元素,然后返回一个元素,中间可以做一些清洗转换等操作FlatMap:输入一个元素,可以返回零个,...

2020-03-25 16:54:08 542

原创 flink学习笔记-dataSet内置数据源

1: 基于文件数据源readTextFile(path) / TextInputFormat:逐行读取文件并将其作为字符串(String)返回readTextFileWithValue(path) / TextValueInputFormat:逐行读取文件并将其作为StringValue返回。StringValue是Flink对String的封装,可变、可序列化,一定程度上提高性能。r...

2020-03-25 16:32:49 329

原创 flink学习笔记-广播变量、累加器、分布式缓存

1:广播变量广播变量主要分为两种方式:dataStream当中的广播变量以及dataSet当中的广播变量,这两个地方的广播变量还有一定的不一样的各自的特性,一句话解释,可以理解为是一个公共的共享变量,我们可以把一个dataset 数据集广播出去,然后不同的task在节点上都能够获取到,这个数据在每个节点上只会存在一份,节约内存1.1:dataStream当中的广播分区将数据广播给所有的...

2020-03-25 09:20:30 462

原创 flink学习笔记-flink的DataStream集成kafka

对于实时处理当中,我们实际工作当中的数据源一般都是使用kafka,所以我们一起来看看如何通过Flink来集成kafka。flink提供了一个特有的kafka connector去读写kafka topic的数据。flink消费kafka数据,并不是完全通过跟踪kafka消费组的offset来实现去保证exactly-once的语义,而是flink内部去跟踪offset和做checkpoint去实现...

2020-03-24 14:31:44 597

原创 flink学习笔记-dataStream状态保存和恢复(state、checkPoint、State Backend、savePoint)

checkPoint保存数据如果一个task在处理过程中挂掉了,那么它在内存中的状态都会丢失,所有的数据都需要重新计算。从容错和消息处理的语义上(at least once, exactly once),Flink引入了state和checkpoint。首先区分一下两个概念state:一个具体的task/operator的状态【state数据默认保存在java的堆内存中】checkpo...

2020-03-24 14:05:49 954

原创 flink学习笔记-如何利用waterMark解决乱序、延迟问题

watermark的作用watermark是用于处理乱序事件的,而正确的处理乱序事件,通常用watermark机制结合window来实现。我们知道,流处理从事件产生,到流经source,再到operator,中间是有一个过程和时间的。虽然大部分情况下,流到operator的数据都是按照事件产生的时间顺序来的,但是也不排除由于网络、背压等原因,导致乱序的产生(out-of-order或者说lat...

2020-03-24 11:09:35 1227

原创 flink学习笔记-flink中的三种time

针对stream数据中的时间,可以分为以下三种Event Time:事件产生的时间,它通常由事件中的时间戳描述。Ingestion time:事件进入Flink的时间Processing Time:事件被处理时当前系统的时间EventTime1.事件生成时的时间,在进入Flink之前就已经存在,可以从event的字段中抽取。2.必须指定watermarks(水位线)的生成方...

2020-03-23 21:11:27 581

原创 flink学习笔记-flink的window介绍、window聚合统计(增量,全量)

窗口类型汇总窗口的基本类型介绍tumbling windows:滚动窗口——没有数据重叠sliding windows:滑动窗口——有数据重复session windows:会话窗口 ——很少用这里就不赘述了Time Windowtime window又分为滚动窗口和滑动窗口,这两种窗口调用方法都是一样的,都是调用timeWindow这个方法,如果传入一个参数就是滚动窗...

2020-03-23 17:55:45 1969

原创 flink学习笔记-dataStream常用算子、自定义分区、自定义sink

flink当中对于实时处理,有很多的算子,我们可以来看看常用的算子主要有哪些,dataStream当中的算子主要分为三大类,Transformations:转换的算子,都是懒执行的,只有真正碰到sink的算子才会真正加载执行partition:对数据进行重新分区等操作Sink:数据下沉目的地官网算子介绍:https://ci.apache.org/projects/flink/flink...

2020-03-23 16:54:04 1314

原创 flink学习笔记-自定义数据源

1:socket数据源import org.apache.flink.streaming.api.scala.{DataStream, StreamExecutionEnvironment}import org.apache.flink.streaming.api.windowing.time.Timeobject FlinkSource1 { def main(args: Arr...

2020-03-23 10:35:33 773

原创 flink学习笔记-shell命令号调试flink实时、批处理任务

为了方便我们的开发调试,Flink支持通过shell命令行的方式来对我们的代码进行开发运行,类似于Spark的shell命令行对代码的调试是一样的,可以方便的对我们的代码执行结果进行跟踪调试,查验代码的问题所在Flink shell方式支持流处理和批处理。当启动shell命令行之后,两个不同的ExecutionEnvironments会被自动创建。使用senv(Stream)和benv(Bat...

2020-03-23 09:55:01 959

原创 flink学习笔记-flink学习的第一个程序

1:创建maven工程,导入jar包<dependencies> <!-- https://mvnrepository.com/artifact/org.apache.flink/flink-streaming-scala --> <dependency> <groupId>org.apache.flink&lt...

2020-03-23 09:31:03 170

原创 flink学习笔记-flink on yarn的两种模式都学会了吗?

flink on yarn模式flink的任务也可以运行在yarn上面,将flnk的任务提交到yarn平台,通过yarn平台来实现我们的任务统一的资源调度管理,方便我们管理集群当中的CPU和内存等资源flink on yarn又分为两种模式1:第一种模式:单个yarn session模式这种方式需要先启动集群,然后在提交作业,接着会向yarn申请一块资源空间后,资源永远保持不...

2020-03-21 15:43:52 455

原创 flink学习笔记-Flink的standAlone轻松搞定啦

Flink的standAlone模式环境安装使用standalone模式,需要启动flink的主节点JobManager以及从节点taskManager服务及地址node1node2node3JobManager是否否TaskManager是是是第一步:更改配置文件修改node01服务器配置文件flink-conf.yamlnode01执...

2020-03-20 22:03:19 657

原创 flink学习笔记-flink的local模式安装部署

1、Flink的local模式部署安装在local模式下,不需要启动任何的进程,仅仅是使用本地线程来模拟flink的进程,适用于测试开发调试等,这种模式下,不用更改任何配置,只需要保证jdk8安装正常即可第一步:上传安装包并解压将编译之后的压缩包,上传到node01服务器的/kkb/soft路径下,然后进行解压tar -zxf flink-1.8.1.tar.gz -C /opt/ins...

2020-03-19 17:33:20 2649

原创 flink学笔记-flink重新编译、flink架构模型、部署运行模式

1:Flink重新编译由于实际生产环境当中,我们一般都是使用基于CDH的大数据软件组件,因此我们Flink也会选择基于CDH的软件组件,但是由于CDH版本的软件并没有对应的Flink这个软件安装包,所以我们可以对开源的Flink进行重新编译,然后用于适配我们对应的CDH版本的hadoop1.1: 准备工作安装maven3版本及以上:省略安装jdk1.8:省略1.2:下载flink源...

2020-03-19 16:42:04 343

原创 hbase学习笔记-hbase二级索引

hbase表后期按照rowkey查询性能是最高的。rowkey就相当于hbase表的一级索引,但是在实际的工作中,我们做的查询基本上都是按照一定的条件进行查找,无法事先知道满足这些条件的rowkey是什么,正常是可以通过hbase过滤器去实现。但是效率非常低,这是由于查询的过程中需要在底层进行大量的文件扫描hbase的二级索引为了HBase的数据查询更高效、适应更多的场景,诸如使用非r...

2020-03-19 11:26:30 338

原创 hbase学习笔记-phoenix安装部署

phoenix安装部署准备需要先安装好hbase集群,phoenix只是一个工具,只需要在一台机器上安装就可以了1、下载安装包从对应的地址下载:http://mirrors.cnnic.cn/apache/phoenix/这里我们使用的是phoenix-4.8.2-HBase-1.2-bin.tar.gz2、上传解压tar -zxvf phoenix-4.8.2-HB...

2020-03-19 11:23:01 214

原创 hbase学习笔记-hbase集成hive

Hive提供了与HBase的集成,使得能够在HBase表上使用hive sql 语句进行查询 插入操作以及进行Join和Union等复杂查询、同时也可以将hive表中的数据映射到Hbase中。1 整合配置1、修改hive-site.xml文件,添加配置属性 <property> <name>hbase.zookeeper.quor...

2020-03-19 11:03:24 119

原创 hbase学习笔记-bulkload方式批量加载数据到HBase

加载数据到HBase当中去的方式多种多样,我们可以使用HBase的javaAPI或者使用sqoop将我们的数据写入或者导入到HBase当中去,但是这些方式不是慢就是在导入的过程的占用Region资料导致效率低下,我们也可以通过MR的程序,将我们的数据直接转换成HBase的最终存储格式HFile,然后直接load数据到HBase当中去即可.优势(1).导入过程不占用Region资源...

2020-03-19 10:18:23 595

原创 hbase学习笔记-过滤器

过滤器的类型很多,但是可以分为两大类——比较过滤器,专用过滤器过滤器的作用是在服务端判断数据是否满足条件,然后只将满足条件的数据返回给客户端;1 hbase过滤器的比较运算符LESS <LESS_OR_EQUAL <=EQUAL =NOT_EQUAL <>GREATER_OR_EQUAL >=GREATER >2 hbase过滤器的比较...

2020-03-19 09:54:42 185

原创 hbase学习笔记-增删改查操作

创建Maven工程,添加依赖 <dependencies> <dependency> <groupId>org.apache.hbase</groupId> <artifactId>hbase-client</artifactId> ...

2020-03-19 09:22:27 330

原创 hbase学习笔记-表预分区

hbase表的预分区当一个table刚被创建的时候,Hbase默认的分配一个region给table。也就是说这个时候,所有的读写请求都会访问到同一个regionServer的同一个region中,这个时候就达不到负载均衡的效果了,集群中的其他regionServer就可能会处于比较空闲的状态。解决这个问题可以用pre-splitting,在创建table的时候就配置好,生成多个region。...

2020-03-18 12:46:03 154

原创 hbase学习笔记-regiion拆分、合并

region 拆分机制region中存储的是大量的rowkey数据 ,当region中的数据条数过多的时候,直接影响查询效率.当region过大的时候.hbase会拆分region , 这也是Hbase的一个优点 .HBase的region split策略一共有以下几种:1、ConstantSizeRegionSplitPolicy0.94版本前默认切分策略当region大小大于...

2020-03-18 12:34:10 127

原创 hbase学习笔记-flush、compact机制

1 Flush机制(1)当memstore的大小超过这个值的时候,会flush到磁盘,默认为128M<property> <name>hbase.hregion.memstore.flush.size</name> <value>134217728</value></property>(2)当memst...

2020-03-18 12:14:38 444

原创 hbase学习笔记-数据存储原理、读写数据流程

1. hbase的数据存储原理一个HRegionServer会负责管理很多个region一个region包含很多个store划分规则一个列族就划分成一个store,如果一个表中只有1个列族,那么每一个region中只有一个store一个store里面只有一个memstorememstore是一块内存区域,数据会先写入到memstore进行缓冲,然后再把数据刷到磁盘...

2020-03-18 11:48:54 183

原创 hbase学习笔记-架构及原理

1.1 hbase的概念hbase基于Google的BigTable论文,是建立的hdfs之上,提供高可靠性、高性能、列存储、可伸缩、实时读写的分布式数据库系统。在需要实时读写随机访问超大规模数据集时,可以使用hbase。1.2 hbase的特点海量存储可以存储大批量的数据列式存储hbase表的数据是基于列族进行存储的,列族是在列的方向上的划分。极易扩展底...

2020-03-18 09:37:16 163

原创 hbase学习笔记-常用shell操作

1、进入Hbase客户端命令操作界面hbase shell2、查看帮助命令hbase(main):001:0> help3、查看当前数据库中有哪些表hbase(main):006:0> list4、创建一张表创建student表, 包含base_f1、base_f2两个列族hbase(main):007:0> create 'student', 'bas...

2020-03-17 15:50:38 813

原创 hbase学习笔记-hbase集群安装部署

1、下载安装包http://archive.apache.org/dist/hbase2、规划安装目录/opt/hbase3、上传安装包到服务器4、解压安装包到指定的规划目录tar -zxvf hbase-2.0.0-bin.tar.gz -C /opt/bigdata5、重命名解压目录mv hbase-2.0.0 hbase6、修改配置文...

2020-03-17 15:08:43 142

Apache-Flink-Stateful-Computations-over-Data-Streams.pdf

Apache Flink Stateful Computations over Data Streams(Apache Flink 知识图谱) 由 Apache Flink Committer 执笔,四位 PMC 成员审核,将 Flink 9 大技术版块详细拆分,突出重点内容并搭配全面的学习素材。PDF 版本内含大量补充链接,点击即可跳转。

2020-05-11

hive-hbase-handler-1.2.1.jar

Hive提供了与HBase的集成,使得能够在HBase表上使用hive sql 语句进行查询 插入操作以及进行Join和Union等复杂查询、同时也可以将hive表中的数据映射到Hbase中

2020-03-19

HBase配置项说明及调优建议.xlsx

hbase 常用参数含义,默认值,调优建议(必须参数,split,compaction,blockcache,memstore flush,hlog,zookeeper,其他,等相参数名称、含义、默认值、调优建议)

2020-03-17

kylin使用文档

ylin二进制包中包含了一份用于测试的样例数据集,总共大小仅1MB左右,共计3张表,其中事实表有 10000条数据。因为数据规模较小,方便在虚拟机中进行快速实践和操作,用户可以自行搭建Hadoop Sandbox的虚拟机并快速部署kylin,然后导入该数据集进行试验。 kylin仅支持星型数据模型,这里用到的样例数据集就是一个规范的星型模型结构,它总共包含了3个数据表

2018-03-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除