13床秃头患者-CSDN博客

原创 ES--HTTP--Postman--索引

索引的创建对比关系型数据库，创建索引就等同于创建数据库在Postman中向ES服务器中发PUT求:http://127.0.0.1:9200/shopping请求之后,服务器返回响应如果重复添加就会报错:显示索引已经存在索引的查询查看所有索引在Postman中,向ES服务器中发GET请求:http://127.0.0.1:9200/_cat/indices?v这里请求路径中的_cat 表示查看的意思，indices 表示索引，所以整体含义就是查看当前 ES服务器中的所有索引，就

2021-12-22 17:56:38 1772

原创 Scala基础----常用

基本语法1. val 常量 2. var 变量注意点:1. 声名变量时,类型可以省略,编译器自动推导,即类型推导2. 类型确定后就不能修改,Scala是一个强类型语言3. 声名变量时,必须有初始值4. 在声名/定义一个变量时,可以使用var或者val来修饰,var修饰的变量可改变,val修饰的常量不可改变...

2021-12-16 14:43:21 1847

原创 HBase深入----官方案例MR

HBase-MapReduce首先配置虚拟机的环境变量Driverimport org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.hbase.mapreduce.TableMapReduceUtil;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;i

2021-11-18 09:50:24 1471

原创 HBase深入----API

创建Maven工程配置pom文件  <dependency> <groupId>org.apache.hbase</groupId> <artifactId>hbase-client</artifactId>

2021-11-05 15:16:27 111

原创 HBase深入----读写流程

写流程客户端从ZK获取到存放.META.表的regionserver。客户端从对应的regionserver上获取.META.表的信息。并从获取的信息中，找到写数据对应的regionserver，也就是put请求发送到哪台regionserver上。客户端找到对应的regionserver，先将对数据的操作写入到HLog中，做预写日志。再去region中，将数据写入到MemStore中，这个时候RegionServer就会给客户端返回ack，当MemStore中的数据到达阈值时，就将它的数据写入

2021-11-05 14:52:22 103

原创 HBase深入----架构

从HBase的架构图上可以看出，HBase中的组件包括Client、Zookeeper、HMaster、HRegionServer、HRegion、Store、MemStore、StoreFile、HFile、HLog等，接下来介绍他们的作用。Client（1）HBase 有两张特殊表：.META.：记录了用户所有表拆分出来的的 Region 映射信息，.META.可以有多个 Regoin。-ROOT-：记录了.META.表的 Region 信息，-ROOT-只有一个 Region，无论如何.

2021-11-05 14:46:18 2818

原创 HBase基础----命令行操作

HBase命令行操作开启客户端：bin/hbase shell help：查看hbase使用的标签。 hbase使用的是ruby的语法。DDL创建表create 'student','info1'create 'student2','info1','info2'查看表list描述表describe 'student'更改表alter 'student',{NAME=>'info1',VERSIONS=>3}删除表(删除之前先要禁用表)disable 's

2021-11-05 14:41:51 364

原创 HBase基础----数据模型

HBase的数据模型Name Space命名空间，类似于关系型数据库的 DatabBase 概念，每个命名空间下有多个表。HBase有两个自带的命名空间，分别是 hbase 和 default，hbase 中存放的是 HBase 内置的表，default 表是用户默认使用的命名空间。Region类似于一个表的子表，表中的一部分。HBase中的一个表被拆分成多个region。HBase 定义表时只需要声明列族即不需要声明具体的列。这意味着，往 HBase 写入数据时，字段可以动态、按需指定。因

2021-11-05 14:37:14 1131

原创 HBase基础----简介

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑器你好！这是你第一次使用 Markdown编辑器所展示的欢迎页。如果你想学习如何使用Mar

2021-11-05 14:33:03 112

原创 Kafka进阶----发送流程

KafkaProducer发消息流程1.ProducerRecord 含义: 发送给Kafka Broker的key/value 值对 2.内部数据结构： -- Topic （名字） -- PartitionID ( 可选) -- Key[( 可选 ) -- Value 3.生产者记录（简称PR）的发送逻辑: <1> 若指定Partition ID,则PR被发送至指定Partition <2> 若未指定Partition ID,但指定了Key, PR会按照ha

2021-10-27 01:45:00 259 1

原创 Kafka深入----读写

Kafka高效的读写机制顺序写入根据磁盘的机械机构来进行顺序写入可以使写入速度更快零复制技术由操作系统对文件直接进行写入写出

2021-10-26 23:45:00 244

原创 Kafka深入----事务

Producer的事务问题：（当有多台follower进行同步时，其中一台机器宕机，ack机制下使得同步重新启动，当重新同步时。机器恢复重新进行同步时由于重启后pid也发生了变化，就会导致其中的数据重复，使得数据杂乱无章）为了实现全局一致性在0.11版本之后引入新的事务特性其中引入一个唯一的一个全局变量Transaction ID将Producer获得PID和Transaction ID 进行绑定在重启机器后可以通过Transaction ID 获取到原来的PID为了管理Trans

2021-10-26 11:14:13 673

原创 Kafka深入----Consumer

Kafka深入----消费者消费方式拉取模式从broker中读取数据（pull模式）pull模式中的不足，如果kafka中没有数据时，消费者就会陷入循环中，一直返回空数据故Kafka的消费者在消费数据时会传入一个==时长参数（timeout）==如果当前没有数据可以消费，则消费者一段时间后返回，时长即为timeout分区分配策略RoundRobin(轮询)保证消费者组内订阅的数据都是同一个Topic主题的数据Range(范围)调用分区策略的选择当启动消费者的时候就

2021-10-26 02:45:00 159

原创 Kafka深入----Producer

Kafka----Producer分区策略原因方便扩展，每个partition可以通过调整以适应他所在的机器，而一个topic 有多个Partition 组成因此整个集群可以适应任意大小的数据可以提高并发以Partition进行读写原则将生产者发送出的消息封装成ProducerRecord(行记录)Inter partition ：分区号timestamp:时间戳- 当partition有值时，将直接作为分区号- 当partition没有值，但<K,V&

2021-10-26 01:00:00 124

原创 Kafka深入----工作流程

Kafka中消息是以topic进行分类topic是逻辑上的概念，而partition是物理上的概念最主要的两个文件log：存放日志数据index：主要作用是如何查找数据默认存放7天最大存放数据大小1G当超过数据默认大小时log文件的索引 00000000000000000000.index 00000000000000000000.log 00000000000000170410.index 00000000000000170410.log 000000000000002

2021-10-25 01:15:00 91

原创 Kafka基础----名词简介

名词介绍MQ- Message Queue- 消息队列- 传统应用场景 1. 同步处理直接调用接口对业务进行调用（流处理）优点：速度快缺点：不安全 2. 异步处理将请求发送到MQ中等待在没有得到反馈之前先对请求做出响应（批处理）优点： 1. 解耦合可以将程序之间分隔，易于去拓展、优化、更改两边的处理过程。 2.可恢复性当系统的部分组件发生故障时，消息仍然在MQ中在系统恢复后可以将消息恢

2021-10-24 21:00:00 1893

原创 Kafka基础----架构

Kafka基础架构

2021-10-24 16:10:24 2369

原创 Kafka基础----简介

Kafka基础Kafka定义Kafka是一个分布式的基于发布/订阅模式的消息队列MQ（Message Queue）Kafka多用于对接Spark - Message Queue - 消息队列 - 传统应用场景 1. 同步处理直接调用接口对业务进行调用（流处理）优点：速度快缺点：不安全 2. 异步处理将请求发送到MQ中等待在没有得到反馈之前先对请求做出响应（批处理）优点： 1. 解耦合可以将程序之间分

2021-10-24 11:23:07 91

原创 Flume----企业开发案例之聚合

聚合案例使用三台节点，b02master 上的agent1 监控文件/root/test.log，b02slave1上的agent2监控某一个端口的数据流，agent1和agent2将数据发送给 b02slave2 上的agent3最终数据打印到控制台agent1.conf# Name the components on this agenta1.sources = r1a1.sinks = k1a1.channels = c1# Describe/configure the source

2021-10-20 09:43:21 251

原创 Flume----企业开发案例之故障转移

故障转移使用agent1 监控一个端口，其 sink 组中的 sink 分别对接agent2和 agent3，采用FailoverSinkProcessor，实现故障转移的功能。配置三个agent文件agent1.conf# Name the components on this agenta1.sources = r1a1.channels = c1a1.sinkgroups = g1a1.sinks = k1 k2# Describe/configure the sourcea1

2021-10-19 21:19:35 131

原创 Flume----企业开发案例之复制

Flume企业级开发案例复制使用agent1监控文件变动agent1 将变动内容传递给agent2，agent2负责存储到HDFS，同时agent1将变内容传递给agent3，agent3负责输出到LocalFileSystem故障转移聚合

2021-10-18 21:12:00 98

原创 Flume进阶----Flume拓扑结构

Flume拓扑结构agent与agent之间连接的时候需要使用（AVRO端口监听）简单串联这种模式是将多个 flume 的agent顺序连接起来了，从最初的 source 开始到最终 sink 传送的目的存储系统。此模式不建议桥接过多的 flume 数量，flume 数量过多不仅会影响传输速率，而且一旦传输过程中某个节点 flume 宕机，会影响整个传输系统。复制和多路复用Flume 支持将事件流向一个或者多个目的地。这种模式可以将相同数据复制到多个channel 中，或者将不同数据

2021-10-17 20:48:41 156

原创 Flume进阶----Agent内部原理

Agent内部原理选择器Replicating Channel Selector (default) ：副本选择器默认开启将Source中的数据分发给所有的ChannelMultiplexing Channel Selector：多路选择器将数据有选择性的发给Channel拦截器首先数据通Source进行接收，把数据封装到event中从source向channel发通过拦截器在Source与Channel中进行拦截通过Interceptor拦截器将数据发给==Chann

2021-10-17 20:17:39 187

原创 Flume进阶----事务

Flume的事务Flume流式处理Flume中有两类事务Source -> Channel 是put事务内部事务实现方法Source对接外部的一个数据源通过Source采集过来封装到event中进行分发每次的大小不能太小在其中有一个可以调节数据发送大小“batchsize”当从Source中发送数据是突然断掉先通过调用doput的方法吧数据方法内存中一个叫putlist中提交的时候是由putlist进行提交提交到docommit方法中通过do

2021-10-17 15:45:00 144

原创 Flume前提回顾

Flume进阶使用前提回顾flume是以三大部分组成agent：flume 的组成单位，包括了Source,Channel,SinkSourcenetcat:官方提供的端口监控组件exec 用于监控Linux中的命令的（tail-F）Spooldir：监控一个目录的。如果目录中出现了新的文件，就文件内容采集过来。taildir：监控多文件，维护offset（支持断点续传根据计算下载时记载在json中的系统偏移量来实现断点续传）KafkaChannelmemory

2021-10-17 11:26:45 89

原创 Exec2Logger

Exec2LoggerExecSource的配置就是设定一个Unix(linux)命令，然后通过这个命令不断输出数据。如果进程退出，Exec Source也一起退出。配置Flume案例在这个目录下新建test.log /usr/software/flume-1.7.0在其中随意输入文字然后再输入以下命令bin/flume-ng agent -c conf -f conf/exec2logger.conf -n a1 -Dflume.root.logger=INFO,console

2021-10-16 22:30:00 77

原创 Azkaban进阶之JavaProcess任务类型

JavaProcess任务类型JavaProcess类型可以运行一个自定义主类方法，type 类型为javaprocess,可用配置为:Xms: 最小堆Xmx: 最大堆classpath: 类路径java.class: 要运行的Java对象，其中必须包含Main方法main.args: main方法的参数案例新建一个azkaban的maven工程创建包名: com.wxy创建Test类package com.wxy.ak;public class TestJavaProc

2021-10-16 18:27:02 264

原创工作条件流案例

工作条件流条件工作流功能允许用户自定义执行条件来决定是否运行某些Job ，条件可以由当前Job的父Job输出的运行时参数构成运行时参数案例 1.基本原理 1.父Job将参数写入JOB_OUTPUT_PROP_FILE环境变量所指向的文件 2.子Job使用${jobName:param}来获取父Job输出的参数并定义执行条件 2.支持的条件运算符： 1. == 等于 2. != 不等于 3. > 大于 4

2021-10-16 18:26:37 127

原创预定义宏案例

Azkaban中预置了几个特殊的判断条件，称之为预定义宏预定义宏会根据所有父Job的完成情况进行判断，再决定是否执行。可用的预定义宏如下1. all_success: 表示父Job全部成功菜执行（默认）2.all_done: 表示父Job全部完成才执行.3.all_failed: 表示父Job全部失败才执行4.one_success: 表示父Job至少一个成功菜执行5.one_failed: 表示父Job至少一个失败才执行案例需求1.JobA执行一个shell脚本2.JobB执行一个

2021-10-16 18:24:38 152

原创 hdfssink

先开启hadoopsh hadop.sh start编辑配置文件vi exec2hdfs.conf#Name the components on this agenta1.sources= s1a1.sinks= k1a1.channels= c1#配置sourcesa1.sources.s1.type = execa1.sources.s1.command = tail -F /root/test.log#配置sinks# Describe the sinka1.s.

2021-10-16 18:21:19 100

原创 Spooldir

Spooldir2HDFSSpooldir监控一个目录的。如果目录中出现了新的文件，就文件内容采集过来。flume中的常见问题文件采集丢失文件采集重复断点续传使用taildirHDFS来进行监控TaildirHDFS支持断点续传断点采集方式在采集中将文件实时的记录在json文件中将文件地址和他计算的偏移量记录文件被采集到哪里根据计算偏移量来进行之后文件的加载flume采集文件时将以组的形式来进行组一采集一个组二采集一个...

2021-10-16 18:20:51 376

原创 Sqoop小案例实现

目标网站http://quotes.toscrape.com/1.实现方法先使用scrapy有对目标进行分析爬取其中涉及的知识点 " xpath scrapy re " 2.将爬取的数据存储到虚拟机中的mysql中3.再利用Sqoop将数据导出到HDFS中存储4.用Sqoop将数据导入到hive中进行分析5.再利用Hive进行分析6.利用Sqoop将分析好的数据导出到HDFS中7.利用Sqoop将导出的数据导入到mysql目标一将网站的数据爬取到物理机中的数据

2021-09-29 08:38:14 194

原创第一次启动zookeeper 问题记载

第一次启动zookeeper在只启动一台机器的zkServer.sh start 后启动其客户端 zkCli.sh 会进行Unable to read additional data from server sessionid 0x0, likely server has closed socket, closing socket connection and attempting reconnect以上代码的报错报错原因主要因为zookeeper的选举机制为半数以上存货故将其他的机器启动一台集

2021-09-26 08:24:17 177

原创 Zookeeper