DORIS常用函数 其中 json_path 必须以 $ 符号作为开头,使用 . 作为路径分割符。如果路径中包含 . ,则可以使用双引号包围。使用 [ ] 表示数组下标,从 0 开始。开窗函数,分组排序后打行标。
6-Kafka原理 Kafka原理leader和followerKafka中的leader和follower是相对分区有意义,不是相对brokerKafka在创建topic的时候,会尽量分配分区的leader在不同的broker中,其实就是负载均衡leader职责:读写数据follower职责:同步数据、参与选举(leader crash之后,会选举一个follower重新成为分区的leader注意和ZooKeeper区分ZK的leader负责读、写,follower可以读取Kafka的leader负责读写
5-Kafka中的分区副本机制 生产者的分区写入策略轮询(按照消息尽量保证每个分区的负载)策略,消息会均匀地分布到每个partition写入消息的时候,key为null的时候,默认使用的是轮询策略随机策略(不使用)按key写入策略,key.hash() % 分区的数量自定义分区策略(类似于MapReduce指定分区)乱序问题在Kafka中生产者是有写入策略,如果topic有多个分区,就会将数据分散在不同的partition中存储当partition数量大于1的时候,数据(消息)会打散分布在不同的partiti
4-Kafka中的重要概念 Kafka中的重要概念brokerKafka服务器进程,生产者、消费者都要连接broker一个集群由多个broker组成,功能实现Kafka集群的负载均衡、容错producer:生产者consumer:消费者topic:主题,一个Kafka集群中,可以包含多个topic。一个topic可以包含多个分区是一个逻辑结构,生产、消费消息都需要指定topicpartition:Kafka集群的分布式就是由分区来实现的。一个topic中的消息可以分布在topic中的不同partition
3-Kafka Java API开发 生产者程序开发创建连接bootstrap.servers:Kafka的服务器地址acks:表示当生产者生产数据到Kafka中,Kafka中会以什么样的策略返回key.serializer:Kafka中的消息是以key、value键值对存储的,而且生产者生产的消息是需要在网络上传到的,这里指定的是StringSerializer方式,就是以字符串方式发送(将来还可以使用其他的一些序列化框架:Google ProtoBuf、Avro)value.serializer:同上创建一个生产者对象K
2-Kafka集群搭建 Kafka集群搭建Kafka集群是必须要有ZooKeeper的注意:每一个Kafka的节点都需要修改broker.id(每个节点的标识,不能重复)log.dir数据存储目录需要配置Kafka的生产者/消费者/工具安装Kafka集群,可以测试以下创建一个topic主题(消息都是存放在topic中,类似mysql建表的过程)基于kafka的内置测试生产者脚本来读取标准输入(键盘输入)的数据,并放入到topic中基于kafka的内置测试消费者脚本来消费topic中的数据推荐大家
1-Kafka简介 消息队列消息队列——用于存放消息的组件程序员可以将消息放入到队列中,也可以从消息队列中获取消息很多时候消息队列不是一个永久性的存储,是作为临时存储存在的(设定一个期限:设置消息在MQ中保存10天)消息队列中间件:消息队列的组件,例如:Kafka、Active MQ、RabbitMQ、RocketMQ、ZeroMQKafka的应用场景异步处理可以将一些比较耗时的操作放在其他系统中,通过消息队列将需要进行处理的消息进行存储,其他系统可以消费消息队列中的数据比较常见的:发送短信验证码、发
3-Hive 的基本操作 3. Hive 的基本操作###3.1 数据库操作####3.1.1 创建数据库create database if not exists myhive;use myhive;说明:hive的表存放位置模式是由hive-site.xml当中的一个属性指定的<name>hive.metastore.warehouse.dir</name><value>/user/hive/warehouse</value>####3.1.2 创建数据库并指
2-Hive的基本概念 2. Hive 的基本概念2.1. Hive 简介什么是 HiveHive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。其本质是将SQL转换为MapReduce的任务进行运算,底层由HDFS来提供数据的存储,说白了hive可以理解为一个将SQL转换为MapReduce的任务的工具,甚至更进一步可以说hive就是一个MapReduce的客户端为什么使用 Hive采用类SQL语法去操作数据,提供快速开发的能力。避免了去写MapReduce
linux管道相关命令 目标cutsortwcuniqteetrsplitawksedgrep准备数据zhangsan 68 99 26lisi 98 66 96wangwu 38 33 86zhaoliu 78 44 36maq 88 22 66zhouba 98 44 46以上是成绩表信息使用 逗号 分割, 第一列 是 姓名, 第二列是 语文成绩, 第三列是 数学成绩, 第四列是 英语成绩需求1: 按照 数学成绩排名, 取出前三名需求2: 显示 学生的数学成
linux常用命令2 文章目录准备工作一、搜索命令1.find 搜索1.1 目标1.2 路径1.3 实现 : 在指定目录中 根据名称 搜索命令格式第一步: 搜索指定目录下, 文件是 abc.txt的文件第二步: 搜索指定目录下, 文件名 包含 `1` 的文件第三步: 搜索指定目录下,所有以`.txt` 为扩展名的文件第四步: 搜索指定目录下, 以数字`1`开头的文件1.3 小结解压缩命令1.目标2 路径3.实现3.1 第一步: 打包 和 解包3.1.1 打包3.1.2 解包小结3.2 第二步: 使用gzip格式 压缩 和 解压缩
linux常用命令 文章目录一、命令概述1.学习Linux终端命令的原因2.Linux终端命令格式目标2.1 终端命令格式常用Linux命令的基本使用2.2 查阅命令帮助信息2.2.1 --help 帮助信息2.2.2 man 手册二、文件和目录常用命令目标1.查看目录内容1.1 终端使用技巧1> 自动补全2> 曾经使用过的命令1.2 ls命令说明1.3 ls常用选项1.4 ls 和通配符的使用2.切换目录2.1 cd2.2 相对路径和绝对路径2.2.1 目标 : 通过 路径 找到 目标2.2.2 如何分步骤实现: