卜塔-CSDN博客

原创【Hive】自定义函数从编写到应用的整个流程（以UDF为例）

【代码】【Hive】自定义函数从编写到应用的整个流程（以UDF为例）

2024-04-26 20:12:04 558 2

原创【SQL】SQL语句执行顺序

用一个例子说明SQL语句在逻辑执行计划时候的执行顺序，实际物理计划可能由于不同数据库优化策略的不同而略有差异。今天写一个相当基础的知识点，主要是之前对这块比较模糊，也没有细究，这次一并记录一下。

2024-04-25 21:05:24 574 2

原创【Hive】UDF、UDAF

UDF（User-Defined-Function）一进一出编程步骤：（1）继承org.apache.hadoop.hive.ql.UDF （2）需要实现evaluate函数；evaluate函数支持重载；注意事项：（1）UDF必须要有返回类型，可以返回null，但是返回类型不能为void；（2）UDF中常用Text/LongWritable等类型，不推荐使用java类型；

2023-04-20 11:26:13 282 1

原创【Kafka】Kafka为什么快？

Kafka之所以快的原因有三个：顺序读写、页缓存、零拷贝。

2023-04-18 15:08:08 739

每个分区有且仅有一个leader，负责消息的读写，当leader挂掉后，由zookeeper从ISR列表中选举新的leader。消费者组，每个消费者属于一个消费者组，每条消息只能被同一消费者组中的一个消费者消费。主题，Kafka可以有多个主题，并支持多个生产者和消费者订阅同一主题。分区，主题中存放多个分区，分区内消息有序，每个分区可以有多个副本。负责管理集群，如：增加、删除topic，监听broker等。生产者，将消息发布到Kafka集群的终端或客户端。消费者，从Kafka分区中取用消息的终端或服务。

2023-04-18 11:47:34 292

原创【Kafka】概述

Kafka最早由Linkedin公司开发，是一个分布式、分区的、多副本的、多订阅者的，基于zookeeper的消息系统，可以用于消费web日志，消息服务等。Kafka可以有多个主题（topic），且每个主题包含多个分区（partition），分区分布在不同的主机（broker）中。Kafka收发消息非常迅速，Kafka每秒可以处理几十万条消息，最低延迟只有几毫秒。Kafka采用发布-订阅模式，即：生产者往队列写消息，消费者从队列取消息。Kafka允许数据持久化到磁盘中，并支持数据备份以防止丢失。

2023-04-18 11:27:31 130

原创【Kafka】生产者和消费者API开发

生产者代码中主要通过KafkaProducer类生成生产者对象，传入Properties配置的参数。通过KafkaConsumer类创建消费者对象，可以设置自动或者手动提交offset。注意send方法可以同步也可以异步，异步时需要实现Callback接口。

2023-04-17 15:45:29 482

原创【Spark】spark读取、插入Mysql

【代码】【Spark】spark读取、插入Mysql。

2023-04-13 17:40:16 558

原创【Spark】RDD转换DataFrame（StructType动态指定schema）

首先通过StructType指定字段和类型，然后再将RDD和schema信息相映射。

2023-04-13 14:34:08 293

原创【Spark】RDD转换DataFrame（反射机制）

Spark支持多种格式文件生成DataFrame，只需在读取文件时调用相应方法即可，本文以txt文件为例。

2023-04-13 13:38:54 532

原创【Spark】RDD缓存机制

把RDD的数据缓存起来，其他job可以从缓存中获取RDD数据而无需重复加工。注意：调用这两个方法后并不会立刻缓存，而是有action算子触发时才会缓存。persist有多种缓存方式，如缓存到内存，缓存到磁盘等。cache只缓存到内存，且实际是调用了persist方法。

2023-04-12 11:42:34 666

原创【Hive】解析字符串(类似array嵌套map结构)

背景业务开展新活动，活动规则中有阶梯奖励，即：达到某个区间，奖励对应的金钱。如：成交1单，每单奖励0元；成交2-4单，每单奖励100元；成交5单以上，每单奖励200元；业务库中以字符串的形式存放活动规则，举例如下：[{"min":1,"money":0,"max":1},{"min":2,"max":4,"money":100},{"min":5,"money":200,"max":99999}]解析思路如果要按照某人成交单数，计算出应得奖励，则需要把上面的字符串解析为3列：min、ma

2021-03-23 13:15:28 1322

原创【Java】面向对象基本特性-封装

封装概述面向对象编程是对客观世界的抽象，封装是对这个抽象的保护，避免外界直接操作抽象内部的隐藏对象。适当的封装让代码更易懂，也更安全。封装的步骤使用private关键字来修饰成员变量对需要访问的成员变量，提供对应的一对get和set方法。封装标准模板JavaBeanJavaBean是java语言编写类的一种标准规范。符合JavaBean的类，要求类必须是具体的和公共的，并且具有无参数的构造方法，提供用来操作成员变量的get和set方法。public class className { /

2020-11-08 10:27:57 218

原创【Spark】ip地址查询案例(城市热点图)

上图是一张很常见的城市热力图，像这样的图是如何绘制的呢？其实，每个地区都有自己的经纬度和上网ip区段，可以通过解析上网日志中的ip，定位某个地区的客流量。本篇文章主要介绍，如果通过解析上网日志，查找热门地区经纬度，并把统计数据插入Mysql表中。数据准备这里需要两份数据：日志数据：20090121000132.394251.http.format链接：https://pan.baidu.com/s/1luckcRUOpCDVmivLJ03XOQ提取码：kroh2. 城市ip段数据.

2020-07-30 00:39:12 874

原创【IDEA】Command line is too long. Shorten command ... or also for Application default configuration

在工程的 .idea目录下打开 workspace.xml文件在 <component name="PropertiesComponent">标签下，添加：<property name="dynamic.classpath" value="true" />

2020-07-29 23:30:41 583

原创【Hive】性能调优 - map-side JOIN

Hive版本: hive-1.1.0-cdh5.14.2概述如果表关联时，有一张表很小，那么可以在大表通过mapper时将小表完全加载到内存中，Hive可以在map端完成关联过程，这就是所谓的map-side JOIN。使用map-side JOIN可以省掉常规的reduce过程，从而提升Hive的效率。Hive中有三个和map-side JOIN相关的参数：参数默认值hive.auto.convert.jointrue (Hive 0.11.0+)hive.aut.

2020-07-01 08:17:58 586

原创【Hive】性能调优 - EXPLAIN

Hive版本: hive-1.1.0-cdh5.14.2用户提交HiveQL查询后，Hive会把查询语句转换为MapReduce作业。Hive会自动完成整个执行过程，一般情况下，我们并不用知道内部是如何运行的。但当查询遇到性能瓶颈时，就需要对HiveQL进行调优。EXPLAIN是调优时查看执行计划的工具，执行计划可以清晰的告诉我们查询的stage、map、reduce等阶段的信息。EXPLAIN的使用非常简单，只需要在正常HiveQL前面加上就可以了。此时的HiveQL不会真正执行作业，只是基于.

2020-06-30 08:01:28 880

原创【Hive】压缩格式

常见压缩格式压缩方式压缩比压缩速度解压缩速度是否可分割gzip13.4%21 MB/s118 MB/s否bzip213.2%2.4MB/s9.5MB/s是lzo20.5%135 MB/s410 MB/s是snappy22.2%172 MB/s409 MB/s否压缩格式对应的编/解码器压缩格式对应的编/解码器DEFLATEorg.apache.hadoop.io.compress.DefaultCode

2020-06-29 06:41:39 4715

原创【Hive】hive表的文件存储格式

在Hive中，文件的存储格式主要有：TEXTFILE、SEQUENCEFILE、ORC、PARQUET。其中，TEXTFILE、SEQUENCEFILE是基于行存储，ORC、PARQUET基于列存储。实际生产环境，使用ORC和PARQUET的情况比较多。1. 行存储和列存储上图中左边为逻辑表，右上为行存储，右下为列存储。当查询结果为一整行的时候，行存储效率会高一些；当查询表中某几列时，列存储的效率会更高。在对数据的压缩方面，列存储比行存储更有优势，所以列存储占用空间相对小一些。2. TEXT

2020-06-26 18:53:18 2961

原创【Hive】表生成(Table-Generating)函数

Hive版本: hive-1.1.0-cdh5.14.21. 列转行函数：explode(1) 输入类型为array语法：explode(ARRAY a)返回值：T描述：展开array，其中每个元素占一行0: jdbc:hive2://node03:10000> select explode(array('A', 'B', 'C'));+------+--+| col |+------+--+| A || B || C |+------+--+(2).

2020-06-26 10:52:51 461

原创【Hive】字符串函数

Hive版本: hive-1.1.0-cdh5.14.21. 首字符转ascii码函数：ascii语法：ascii(string str)返回值：int描述：返回字符串str首字符的ascii编码0: jdbc:hive2://node03:10000> select ascii('hello') as col1, ascii('hehe') as col2, ascii('Hi') as col3;+-------+-------+-------+--+| col1 | col2.

2020-06-21 19:45:32 1021

原创【Hive】条件函数

Hive版本: hive-1.1.0-cdh5.14.21. if函数语法：if(boolean testCondition, T valueTrue, T valueFalseOrNull)返回值: T描述：如果testCondition为true，返回valueTrue，否则返回valueFalseOrNull0: jdbc:hive2://node03:10000> select if(1=2, 'TrueValue', 'FalseOrNull');+-------------.

2020-06-20 23:52:05 610

原创【Hive】日期函数

1. Unix时间戳转日期函数名称：from_unixtime(bigint unixtime[, string format])返回值：string描述: Unix时间戳转换为日期格式0: jdbc:hive2://node03:10000> select from_unixtime(1237573801, 'yyyy-MM-dd HH:mm:ss') as time_string;+----------------------+--+| time_string |+

2020-06-20 19:26:27 1309

原创【Hive】集合函数

函数名称返回值类型描述size(Map<K,V>)int返回map类型数据的长度size(Array)int返回array类型数据的长度map_keys(Map<K,V>)array返回map类型数据的键map_values(Map<K,V>)array返回map类型数据的值array_contains(Array, value)boolean判断value是否存在于array中sort_array(...

2020-06-20 10:53:06 514

原创【Hive】动态分区插入

动态分区是指在插入数据时，无需指定分区键值，系统根据插入的数据，自动分配分区。动态分区需注意以下几点:需有一个同构的普通表做为源表；分区键值和源表字段之间是根据位置来判断的，而不是根据命名来匹配的；动态分区默认是关闭的，使用前要设置相关参数；下面是一个动态分区的例子:# 创建分区表和普通表# 上传数据文件到HDFS# 普通表导入数据# 使用动态分区插入数据到分区表中...

2020-06-18 21:51:38 946

原创【Hive】Hive分区表

分区作为一种提高数据操作灵活性的手段，被广泛应用于关系型数据库中。在Hive中我们同样可以采用分区的方式来提高数据操作效率，和关系型数据库（如Oracle）所不同，Hive的分区表既可以是内部表，也可以是外部表。本篇文章主要介绍如何在Hive中创建分区表，外部表上的DDL操作，以及使用外部表的注意事项。1. 创建分区表1.1 创建内部分区表create table myhive.test_internal(id int) partitioned by (date string) row format

2020-06-15 23:20:58 460

SOWC 2014 Stat Tables_Table 9.xlsx

population_data.json

Python Indent插件

空空如也