不吃鱼的cat-CSDN博客

原创 DolphinScheluer 冷门问题 error=2, No such file or directory

DolphinSchedule 冷门问题: error=2, No such file or directory

2022-06-14 16:54:24 1873 3

原创 Ambari之flume集成配置及流程

（HDP）Ambari之flume集成配置及流程查看压缩包中编译好的源码包 zkyrpm一：将zkyrpm/ambari-flume-service 相对目录下的FLUME 复制到 ambari-server 主机的 /var/lib/ambari-server/resources/stacks/HDP/3.1/services/ 目录下并重启ambari-server:ambari-server restart到此，ambari的web界面就能识别出来flume了。二：创建flume的本地yum

2022-05-02 20:54:26 935

原创 hive之反斜杠导致Unicode编码字段里的中文无法正常显示

hive之反斜杠导致Unicode编码字段里的中文无法正常显示从mysql拉到hive的ods的表中字段显示不正常，如下content字段中文无法显示首先利用在线unicode解析看下具体的中文内容是什么**初始判定问题原因：**此时暂时判定是因为hive没有成功将“unicode”编码格式的字段转化为“utf-8”，故而无法正常显示因为没有找到合适的函数进行转码，所以自定义UDF，如下import org.apache.commons.lang3.StringEscapeUtils;i

2022-02-15 11:40:23 2850 9

原创 Doris之分区分桶表的insert overwrite实现（二）

Doris之分区分桶表的insert overwrite实现（二）分区表的创建和重建自动化脚本，如下############################################################################################### author### 适用范围: ①分区表刚创建，昨天分区未创建时 ②分区表的昨日分区数据需要删除，删除后再重建##################################################

2022-01-10 17:48:42 1473

原创 superset使用（四）地图绘制的ISO 3166转码以及名称汉化显示

superset（四）地图绘制的ISO 3166转码以及名称汉化显示本文以制作“中国地图”为例在chart中选择“Country Map”我这里提供一份中国省份iso3166的编码数据，建表和添加数据如下：CREATE TABLE wm_tmp.tmp_visualization_map_test (member_id string COMMENT '用户id',sounrce_flag string COMMENT '用户来源',country string COMMENT '国家',

2021-12-30 15:19:50 4348 4

原创 Doris之分区分桶表的insert overwrite实现（一）

Doris之分区分桶表的insert overwrite实现（一）实时项目如果是实时，就要讲求时效性，直接选用UNIQUE KEY模型表，选定不可重复的列为unique key即可建立单分区表简单举例CREATE TABLE order_tab( orderid BIGINT, username VARCHAR(32), amount BIGINT DEFAULT '0')UNIQUE KEY(orderid,username)DISTRIB

2021-12-14 15:45:37 5424

原创 Doris之如何将oss的表数据导入到doris的表中并完成调度

Doris之如何将oss的表数据导入到doris的表中中并完成调度前言：写入doris的脚本可以看我之前写的写入doris分区表详解问题: 当你把oss地址配好，运行脚本成功后，去doris的目标库中执行 show load 就会发现导入失败，提示使用broker拉取文件只支持hdfs AFS BOS三种方式原因：现在很多公司为了降低成本使用oss替换hdfs存储文件，因为表的文件块在oss存储，所以需求由hdfs 到 doris 变成了oss 到doris现在想通过broker从oss上拉取表到d

2021-12-14 14:20:34 2459 3

转载 Doris 物化视图的介绍和使用

Doris 物化视图的介绍和使用物化视图是将预先计算（根据定义好的 SELECT 语句）好的数据集，存储在 Doris 中的一个特殊的表。物化视图的出现主要是为了满足用户，既能对原始明细数据的任意维度分析，也能快速的对固定维度进行分析查询。#适用场景分析需求覆盖明细数据查询以及固定维度查询两方面。查询仅涉及表中的很小一部分列或行。查询包含一些耗时处理操作，比如：时间很久的聚合操作等。查询需要匹配不同前缀索引。#优势对于那些经常重复的使用相同的子查询结果的查询性能大幅提升。Doris自动维

2021-12-14 11:35:06 2983

原创 Presto 和 Hive 的sql语句(函数)的切换使用（不断更新中...）

presto 与 hue 的切换使用```bashHive：collect_set转为数组并去重，concat_ws将数组用逗号间隔连接成字符串select user_id, concat_ws(',', collect_set(order_id)) as order_idsfrom test_tablewhere 1 = 1group by user_id ;Presto：array_agg转为数组，array_distinct去重，array_join将数组用逗号间隔连接

2021-12-13 15:21:27 1579

原创 hive分区表同步数据到doris分区分桶表详解

hive分区表同步数据到doris分区分桶表详解本文从Broker Load来实现数据同步一、 BrokerBroker是在doris中独立存在的，FE是负责元数据和任务调度，BE负责存储实际数据和执行任务，当BE执行数据同步任务时，会从Broker里拉取数据，直到所有BE拉取完毕，拉取数据才会完整，故而能通过Broker Load来实现数据同步二、表结构创建hive分区表 wm_app.app_usertouch_all_kpi_num_user_day表结构如下创建doris分区分桶表

2021-11-30 14:36:05 5456

原创 superset 使用（三）对接数据源和doris和clickhouse遇到的问题

superset 使用（三）对接数据源和doris和clickhouse遇到的问题一、使用命令加载clickhouse驱动pip install clickhouse-driver==0.2.0pip install clickhouse-sqlalchemy==0.1.6安装完成后，重启superset二、建立clickhouse连接clickhouse://{username}:{password}@{hostname}:{port}/{database}根据实际换成自己的账号和I

2021-11-29 20:40:13 4024

原创自定义UDF之自定义标识分组

**自定义UDF之自定义标识分组**功能：根据字段匹配自行分组首先添加maven依赖，我使用的hive版本是2.3.5，根据自己需求自己更改版本<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:sche

2021-11-21 21:53:14 922

原创 superset 使用（二）对接数据源presto遇到的问题

superset 使用（二）对接数据源presto遇到的问题一、当你在官网上查看使用的命令是pip install pyhive 你安装完毕之后会发现报错ERROR: Could not load database driver: PrestoEngineSpec我在网上查了好多文章，都指向不明确，其实说到底，还是没有配置好驱动，pyhive 默认安装的是最新版本0.6.4，如果你的版本太低也会有问题使用命令pip install pyhive==0.6.4 更新到最新此时，还报错

2021-11-10 17:19:15 3213

原创 hive调优手册

hive调优手册1 Fetch抓取Fetch抓取是指，Hive中对某些情况的查询可以不必使用MapReduce计算。例如：SELECT * FROM employees;在这种情况下，Hive可以简单地读取employee对应的存储目录下的文件，然后输出查询结果到控制台。在hive-default.xml.template文件中hive.fetch.task.conversion默认是more，老版本hive默认是minimal，该属性修改为more以后，在全局查找、字段查找、limit查找等都不走m

2021-09-22 23:31:36 138

原创 Superset 使用手册 -- 从入门到精通（基本使用+权限管理+可视化实时刷新）爆肝七天力作

Superset 使用手册（基本使用+权限管理+可视化实时刷新）第一部分Superset 基本使用1.1 对接数据源（目前支持mysql、hive、es）登录superset后，点Databases点这里选择数据源按要求填写(把=>后面的东西黏贴到url里)Elasticsearch=> elasticsearch+http://{user}:{password}@{host}:9200/Hive => hive://hive@{hostname}:{port}/{

2021-09-20 00:56:33 29835 1

原创解决Hadoop小文件问题

解决Hadoop小文件问题1 Hadoop小文件弊端HDFS上每个文件都要在NameNode上创建对应的元数据，这个元数据的大小约为150byte，这样当小文件比较多的时候，就会产生很多的元数据文件，一方面会大量占用NameNode的内存空间，另一方面就是元数据文件过多，使得寻址索引速度变慢。小文件过多，在进行MR计算时，会生成过多切片，需要启动过多的MapTask。每个MapTask处理的数据量小，导致MapTask的处理时间比启动时间还小，白白消耗资源。2 Hadoop小文件解决方案2.1 数

2021-09-12 23:59:02 1160

原创解决Hadoop小文件问题

解决Hadoop小文件问题1 Hadoop小文件弊端HDFS上每个文件都要在NameNode上创建对应的元数据，这个元数据的大小约为150byte，这样当小文件比较多的时候，就会产生很多的元数据文件，一方面会大量占用NameNode的内存空间，另一方面就是元数据文件过多，使得寻址索引速度变慢。小文件过多，在进行MR计算时，会生成过多切片，需要启动过多的MapTask。每个MapTask处理的数据量小，导致MapTask的处理时间比启动时间还小，白白消耗资源。2 Hadoop小文件解决方案2.1 数

2021-09-12 23:56:39 569

原创 HQL 连续使用多次left join

多次left join表a 、表b、表ca left join b on 条件1 left join c on 条件2 left join d on 条件3a和b join 然后 ab和c join 然后 abc和d join啊，最后形成abcd表，然后取出所需字段

2021-09-09 12:14:36 667

原创实现flink自定义幂等写入ClickHouse，并封装成通用工具类

**实现flink自定义幂等写入ClickHouse，并封装成通用工具类**ClickHouse建表语句（按user分区，一个用户一个区，重复写入，只会改变url和timestamp，user的值不会发生改变，通过调整order by 后的字段，可以调整幂等写入时值不会发生改变的字段）create table Event( user String , url String , timestamp UInt64 ) engine =

2021-07-25 10:20:57 1875 1

原创日期工具类：线程安全的

SimpleDateFormat是线程不安全的从JDK1.8之后，提供了线程安全的日期类对象，我们可以使用java.time包下的类型代替原来的日期操作import java.time.Instant;import java.time.LocalDateTime;import java.time.ZoneId;import java.time.ZoneOffset;import java.time.format.DateTimeFormatter;import java.util.Date.

2021-07-17 20:45:48 303

原创日期工具类：线程不安全的

日期工具类：线程不安全的出现线程安全的条件：①多线程 + ②多个线程共同访问应同一个成员变量 +③并且多个线程对同一成员变量进行修改操作import java.text.ParseException;import java.text.SimpleDateFormat;import java.util.Date;/** * 日期工具类：线程不安全的 */public class DateTimeUtil { //定义格式 private static SimpleDateFor

2021-07-17 20:32:37 546

原创连接数据库查询数据的工具类（底层实现）——以查询Phoenix为例

连接数据库查询数据的工具类（底层实现）——以查询Phoenix为例这里实现的工具类是类似于底层实现的，为了方便用户查询操作，可以对其外部包装，我就不展开了。工具类public class PhoenixUtil { private static Connection conn; // 需要考虑的内容：返回值类型方法名传参抛出异常以及方法体 // T :表示将查询的一条结果封装为T类型对象 public static <T> List<T>

2021-07-17 14:56:49 391

原创快速连接Xshell ==＞把反射回应关掉

快速连接Xshell ==>把反射回应关掉登录连接后，执行下面语句进入配置文件[root@hadoop102 profile.d]$ sudo vim /etc/ssh/sshd_config修改里面的内容#UseDNS yes 改为 UseDNS no//重启[root@hadoop102 profile.d]$ sudo systemctl restart sshd然后给每个连接都执行上面的操作，就可以快速连接xShell了...

2021-07-10 11:11:02 111

原创 Flink底层API写入clickhouse——如果遇到clickhouse中有map类型

**Flink底层API写入clickhouse——如果遇到clickhouse中有map类型**首先在clickhouse中建表语句如下：//在clickhouse中 Map 类型在当前的版本中是默认禁用的，所以首先需要开启它：set allow_experimental_map_type = 1;CREATE TABLE reclicks ( test_value Map(String, String)) ENGINE = MergeTree ORDER BY test_value

2021-07-07 00:35:01 895

原创 flink自定义写入clickhouse

**flink自定义写入clickhouse**首先在pom.xml中放入所需依赖，我这里整理了一份mysql、reduis和clickhouse的所有依赖<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" .

2021-07-04 22:56:38 1986 4

原创就集合判非空产生关于逻辑与&&的一点思考

判断list是否非空一般有两种写法：```java//第一种if(list!=null&&list.size()>0)//第二种if(chilNode.isEmpty()==false)

2021-03-31 19:36:22 152

原创几天没有使用集群，Xshell连接不上机器了

有个道友几天没有使用集群，今天在用Xshell连接集群的时候突然发现有个机子连不上了

2021-03-31 19:01:41 355

原创解读hadoop排序规则（源码角度）

Hadoop中要实现排序比较，本质上就是让一个参与比较的对象拥有比较器对象。

2021-03-28 10:22:24 349

原创 Zookeeper的API应用之非空节点的删除

Zookeeper的API应用之非空节点的删除除了在linux中用命令行方式（deleteall 非空目录）删除，也可以在idea中代码实现非空节点的删除 //创建测试类public class TestZKClient { //声明ZooKeeper，方便调用 private ZooKeeper zk; //测试方法 @Test public void delAllNode() throws KeeperException, InterruptedException

2021-03-27 23:51:01 1006

不吃鱼的cat的博客

原创 DolphinScheluer 冷门问题 error=2, No such file or directory

原创 Ambari之flume集成配置及流程

原创 hive之反斜杠导致Unicode编码字段里的中文无法正常显示

原创 Doris之分区分桶表的insert overwrite实现（二）

原创 superset使用（四）地图绘制的ISO 3166转码以及名称汉化显示

原创 Doris之分区分桶表的insert overwrite实现（一）

原创 Doris之如何将oss的表数据导入到doris的表中并完成调度

转载 Doris 物化视图的介绍和使用

原创 Presto 和 Hive 的sql语句(函数)的切换使用（不断更新中...）

原创 hive分区表同步数据到doris分区分桶表详解

原创 superset 使用（三）对接数据源和doris和clickhouse遇到的问题

原创自定义UDF之自定义标识分组

原创 superset 使用（二）对接数据源presto遇到的问题

原创 hive调优手册

原创 Superset 使用手册 -- 从入门到精通（基本使用+权限管理+可视化实时刷新）爆肝七天力作

原创解决Hadoop小文件问题

原创解决Hadoop小文件问题

原创 HQL 连续使用多次left join

原创实现flink自定义幂等写入ClickHouse，并封装成通用工具类

原创日期工具类：线程安全的

原创日期工具类：线程不安全的

原创连接数据库查询数据的工具类（底层实现）——以查询Phoenix为例

原创快速连接Xshell ==＞把反射回应关掉

原创 Flink底层API写入clickhouse——如果遇到clickhouse中有map类型

原创 flink自定义写入clickhouse

原创就集合判非空产生关于逻辑与&&的一点思考

原创几天没有使用集群，Xshell连接不上机器了

原创解读hadoop排序规则（源码角度）

原创 Zookeeper的API应用之非空节点的删除

大数据Ambari之flume集成编译好的源码包

空空如也