自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(28)
  • 资源 (6)
  • 收藏
  • 关注

原创 Clickhouse集群搭建

一、前提需要在三台及以上安装clickhouse单机 单机安装连接二、配置2.1、修改配置文件config.xml需要在每台主机修改 config.xml ,如下vim /etc/clickhouse-server/config.xml先修改 tcp_port 为 9977,默认端口为9000 因为这个端口和 HDFS 的冲突了<tcp_port>9977</tcp_port>listen_host 表示能监听的主机,:: 表示任意主机都可以访问<lis

2021-03-20 21:10:00 349

原创 ClickHouse单机安装

一、安装前准备1.1、CentOS7 打开文件数限制在 /etc/security/limits.conf 这个文件的末尾加入一下内容: sudo vim /etc/security/limits.conf* soft nofile 65536 * hard nofile 65536 * soft nproc 131072 * hard nproc 131072在 /etc/security/limits.d/20-nproc.conf 这个文件的末尾加入一下内容:# x0-xxx.c

2021-03-20 17:29:17 704

原创 Java版Flink(十五)状态后端(State backend)

一、概述Flink支持的StateBackend:MemoryStateBackend 默认的state的类型就是这种FsStateBackendRocksDBStateBackend二、MemoryStateBackend默认情况下,状态信息是存储在 TaskManager 的堆内存中的,checkpoint 的时候将状态保存到JobManager 的堆内存中。缺点:只能保存数据量小的状态状态数据有可能会丢失优点:开发测试很方便三、 FSStateBackend状态信息存储在

2021-03-20 14:55:13 369

原创 Java版Flink(十四)检查点(CheckPoint)

一、概述checkpoint机制是Flink可靠性的基石,可以保证Flink集群在某个算子因为某些原因(如 异常退出)出现故障时,能够将整个应用流图的状态恢复到故障之前的某一状态,保 证应用流图状态的一致性。二、案例以wordcount为例,如下图:有两个算子,keyby map。第一步:输出数据 经过 keyby 之后重新分区,发往指定分区。比如上图的 key 为 a 被上层的 map 算子处理,b 被中间的 map算子处理,c 被 底层的 map 算子处理第二步:假设来了数据 【b,2】

2021-03-20 12:13:38 1448

原创 Java版Flink(十三)状态编程

一、概述以wordcount为例,为什么每次输入数据,flink都能统计每个单词的总数呢?我们都没有显示保存每个单词的状态值,但是每来一条数据,都能计算单词的总数。事实上,flink在底层维护了每个 key的状态,就是state。比较于Spark,Spark如果没有显示保存其中的状态,它会统计当前批次的单词次数,也就是没有了历史总数,这就相当于,来一条数据我就处理,不管之前的数据,这就是无状态。总之,状态在Flink编程中显得极其重要,也是新一代实时流式处理框架的核心。二、state 概念state:

2021-03-20 10:47:09 727 1

原创 Java版Flink(十二)底层函数 API(process function)

一、概述之前的转化算子是无法访问事件的时间戳信息和水位线watermark,但是,在某些情况下,显得很重要。Flink 提供了 DataStream API 的Low- Level转化算子。比如说可以访问事件时间戳、watermark、以及注册定时器,还可以输出一些特定的事件,比如超时事件等。Process Function 用来构建事件驱动的应用以及实现自定义的业务逻辑(使用之前的window 函数和转换算子无法实现)。例如,Flink SQL 就是使用 Process Function 实现的。Fl

2021-03-19 18:30:32 408

原创 Java版Flink(十一)时间语义和watermark

一、时间语义在Flink 中涉及到三个重要时间概念:EventTime、IngestionTime、ProcessingTime。1.1、EventTimeEventTime 表示日志事件产生的时间戳,每一条数据都会记录自己生产的时间。1.2、IngestionTimeIngestionTime 表示 数据进入 Flink程序的时间1.3、ProcessingTimeProcessingTime 表示数据被计算处理时间,默认Flink时间属性就是ProcessingTime。1.4、总结

2021-03-19 09:56:20 376

原创 Java版Flink(十)window窗口(二)

一、触发器(Trigger)1.1、案例一利用 global window + trigger 计算单词出现三次统计一次(有点像CountWindow)某台虚拟机或者mac 终端输入:nc -lk 9999import org.apache.flink.api.common.functions.FlatMapFunction;import org.apache.flink.api.java.tuple.Tuple2;import org.apache.flink.streaming.api.da

2021-03-17 16:43:42 181

原创 Java版Flink(九)window窗口(一)

一、window 概述Flink 通常处理流式、无限数据集的计算引擎,窗口是一种把无限流式数据集切割成有限的数据集进行计算。window窗口在Flink中极其重要。二、window 类型window 注意分为两大类型:CountWindow 和 TimeWindow2.1、CountWindowCountWindow 是与时间没有关系的,比如 数据收集的一定大小(1w)的时候就会触发窗口函数进行计算。2.2、TimeWindowTimeWindow 就是时间窗口,它与时间非常紧密。主要分为三大

2021-03-17 14:39:07 504

原创 Java版Flink(八)sink输出

一、概述Flink输出主要通过sink完成,比如 dataStream.addSink(new MySink(XXX))。Flink集成了一些框架sink,官网Sink介绍二、kafka sink2.1、依赖<dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-connector-kafka-0.11_2.12</artifactId> <vers

2021-03-16 21:51:13 748

原创 搭建ElasticSearch集群

一、创建用户创建用户的原因由于ES版本5.0以后不能使用root用户启动ES[root@hadoop102 ~]# useradd es[root@hadoop102 ~]# passwd es二、准备Java环境三、下载安装包四、解压安装包[root@hadoop102 software]# tar -zxvf elasticsearch-6.3.1.tar.gz -C /opt/module/五、配置 jvm.options主要是调整内存,es启动需要较大内存,如果内存不足就会启

2021-03-14 22:12:53 86

原创 搭建Redis哨兵集群模式

1、下载安装包下载地址2、上传安装包 redis-3.0.6.tar.gz3、解压tar -zxvf redis-3.0.6.tar.gz -C /opt/module/4、修改安装目录[root@hadoop102 redis-3.0.6]# pwd/opt/module/redis-3.0.6[root@hadoop102 redis-3.0.6]# vim src/Makefile# redis 安装目录PREFIX?=/usr/local/redis3.0.6INSTAL

2021-03-14 21:02:36 73

原创 Java版Flink(六)transform算子

一、mapmap算子把input类型数据转换为output类型数据eg:String input = “sensor,123456,33.0”SensorReading(“sensor”,123456L,33.0d)dataStream.map(new Mapfunction<input,output>{xxx})import com.tan.flink.bean.SensorReading;import org.apache.flink.api.common.functions.M

2021-03-14 16:50:25 435

原创 Java版Flink(五)source源

一、source from collection1.1、数据源类public class SensorReading { // 传感器 id private String id; // 传感器时间戳 private Long timestamp; // 传感器温度 private Double temperature; public SensorReading() { } public SensorReading(String

2021-03-14 13:27:06 361

原创 Java版Flink(四)运行环境Enviroment

一、Flink 数据流程二、Environment2.1、getExecutionEnvironment创建一个执行环境,表示当前执行程序的上下文。 如果程序是独立调用的,则此方法返回本地执行环境;如果从命令行客户端调用程序以提交到集群,则此方法返回此集群的执行环境,也就是说,getExecutionEnvironment 会根据查询运行的方式决定返回什么样的运行环境,是最常用的一种创建执行环境的方式。本地创建执行环境,默认的并行度等于cpu 核数。2.1.1、datasetExecutionE

2021-03-14 12:23:26 303

原创 Java版Flink(三)运行架构

一、运行时组件1.1、作业管理器(jobManager)控制一个应用程序执行的主进程,也就是说,每个应用程序都会被一个不同的JobManager 所控制执行。JobManager 会先接收到要执行的应用程序,这个应用程序会包括:作业图(JobGraph)、逻辑数据流图(logical dataflow graph)和打包了所有的类、库和其它资源的JAR包。JobManager 会把JobGraph转换成一个物理层面的数据流图,这个图被叫做“执行图”(ExecutionGraph),包含了所有可以并发

2021-03-14 10:13:15 234

原创 Java版Flink(二)部署模式

一、standalone 部署模式1、下载安装包下载安装包地址有两种安装包类型:第一种是带 Hadoop依赖的(整合YARN)第二种是不带 Hadoop依赖的(Standalone模式)本次部署选择 1.10.1 版本2、相关配置介绍2.1 核心目录介绍bin:启动脚本conf:配置文件examples:样例程序lib:jar存放地log:日志存放地2.2 bin 目录flink:核心运行jobhistoryserver.sh:历史服务器启动停止脚本start-clust

2021-03-13 19:17:25 553

原创 Java版Flink(一)概述和入门案例

一、概述1、Flink 是什么Apache Flink is a framework and distributed processing engine for stateful computations over unbounded and bounded data streams.Apache Flink 是一个框架和分布式处理引擎,用于对无界和有界数据流进行状态计算。官网地址2 、Flink 特点2.1、事件驱动(Event-driver)2.2、有界流和无界流有界流:相对于离线数

2021-03-13 16:49:01 1377

原创 搭建HBase集群

搭建HBase集群1、启动Zookeeper集群2、启动HDFS、YARN3、上传安装包[root@hadoop102 software]# ll总用量 103244-rw-r--r--. 1 root root 105718722 2月 18 15:52 hbase-1.3.1-bin.tar.gz4、解压安装包[root@hadoop102 software]# tar -zxvf hbase-1.3.1-bin.tar.gz -C /opt/module/5、配置hbase-e

2021-02-19 10:31:35 49

原创 安装Hive

安装Hive1、上传安装包[root@hadoop102 software]# ls -l-rw-r--r--. 1 root root 92834839 2月 18 14:16 apache-hive-1.2.1-bin.tar.gz2、解压安装包[root@hadoop102 software]# tar -zxvf apache-hive-1.2.1-bin.tar.gz -C /opt/module/3、重命名[root@hadoop102 module]# mv apache

2021-02-18 15:43:15 44

原创 Linux安装Mysql

安装Mysql1、上传安装包[root@hadoop103 software]# ll-rw-r--r--. 1 root root 77807942 2月 18 14:09 mysql-libs.zip2、解压安装包[root@hadoop103 software]# unzip mysql-libs.zip 3、查看是否自带Mysql3.1 是否存在Mysql如果存在 则删除对应的包 rpm --nodeps -erpm -qa | grep mysql3.2 是否存在ma

2021-02-18 15:04:42 60

原创 搭建Kafka集群

搭建Kafka集群1、上传安装包[root@hadoop102 ~]# cd /opt/software/[root@hadoop102 software]# ll总用量 448864-rw-r--r--. 1 root root 197657687 2月 9 15:17 hadoop-2.7.2.tar.gz-rw-r--r--. 1 root root 185515842 2月 9 15:17 jdk-8u144-linux-x64.tar.gz-rw-r--r--. 1 root

2021-02-16 20:38:13 134

原创 搭建Hadoop分布式集群(HA)

搭建Hadoop分布式集群(HA)1、前提准备以Hadoop分布式集群(非HA)为基础2、安装Zookeeper 并启动安装Zookeeper3、安装配置注意:NameNode分别启动在 hadoop102(Active)、hadoop103(standby)3.1 创建目录[root@hadoop102 ~]# cd /opt/[root@hadoop102 opt]# mkdir ha3.2 复制 Hadoop 包[root@hadoop102 opt]# cp -r /opt/

2021-02-15 15:35:44 108

原创 Zookeeper分布式集群搭建

Zookeeper分布式集群搭建1、环境准备1.1 准备三台虚拟机推荐使用 Centos 7.x 系列1.2 配置静态IP配置好每台虚拟机的静态IP可以参考配置静态IP1.3 准备Java环境推荐使用Java1.81.4 关闭防火墙2、安装配置2.1 上传安装包2.1.1 上传安装包到指定目录[root@hadoop102 software]# pwd/opt/software[root@hadoop102 software]# ls -l总用量 408420-rw-r--

2021-02-15 09:39:31 128 1

原创 MapReducer之入门案例及序列化(一)

MapReduce1、MapReduce 概述1.1 MapReduce 定义MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架。MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上。1.2 MapReduce 进程一个完整的MapReduce程序在分布式运行时有三类实例进程:1、MrAppMaster:负责整个程序的过程调度及状态协调。2、MapTask:负责

2021-02-14 10:13:57 303 1

原创 Hadoop 之 HDFS 入门及进阶学习

HDFS1、HDFS 概述1.1 HDFS 定义HDFS(Hadoop Distributed File System),它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。HDFS的使用场景:适合一次写入,多次读出的场景,且不支持文件的修改。适合用来做数据分析,并不适合用来做网盘应用。1.2 HDFS 优缺点1.2.1 优点1、高容错性HDFS 默认数据保存3份。当某个副本丢失时,可以自动恢复。2、处理大数

2021-02-13 10:15:34 175 1

原创 “傻瓜式”基于 Centos 7.x 搭建 Hadoop 2.7.x 完全分布式集群(非HA)

搭建 Hadoop 集群1、前提准备1.1 准备3台虚拟机本次搭建环境采用 Centos 7.x1.2 配置静态IP如果不会配置的读者,可以参考本链接进行配置静态IP配置1.3 修改主机为了方便称号每台主机,需要配置主机映射(每一台主机执行相同操作)(如果读者对于 [root@hadoop102 ~] 中的 hadoop102 有疑问,可以参考静态IP配置中的相关内容进行阅读并配置)hadoop102:[root@hadoop102 ~]# vim /etc/hosts添加如下内容

2021-02-10 19:35:01 295

原创 基于 CentOS “傻瓜式“ 配置静态IP

静态IP配置1、概述静态IP主要功能是为了:不随网络切换而导致网络IP地址发生改变。2、配置步骤2.1 查看网关和子网掩码打开虚拟机 VMware -> 编辑 -> 虚拟网络编辑器 -> 选择 NAT 模式 -> NAT 设置如下图:最终查看网关如下:最终的网关是 192.168.200.2 子网掩码是 255.255.255.02.2 配置文件打开终端,输入命令:vi /etc/sysconfig/network-scripts/ifcfg-ens33

2021-02-09 10:17:22 166

zookeeper3.4.10(Linux版本).zip

Zookeeper资源

2021-02-15

maven3.3.9+repository.zip

maven3.3.9+repository

2021-02-12

hadoop2.7.2(window版本).zip

hadoop 资源 适合大数据开发

2021-02-12

hadoop2.7.2(Linux版本).zip

Hadoop 资源 适合大数据开发

2021-02-12

jdk(window64位版本).zip

Java资源,适合 JAVA 开发

2021-02-12

jdk(Linux版本).zip

Java 资源,适合 JAVA开发

2021-02-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除