微亮之海-CSDN博客

原创 hive一行多列合并为一行一列

【代码】hive一行多列合并为一行一列。

2023-10-20 14:06:38 433

原创 DataX抽取oracle数据到hive，数据量变多

数据抽取工具DataX数据源oracle 数据量 4184500目标表hive 数据量 4184555抽取后多了55条数据。

2023-05-19 12:11:29 697 1

原创 Java设计模式

对类来说，一个类应该只负责一项职责。如类A负责两个不同的职责：职责1，职责2。当职责1需求变更而改变A时，可能造成职责2执行错误，所以需要将类A的粒度分解为A1，A2客户端不应该依赖它不需要的接口，即一个类对另一个类的依赖应该建立在最小的接口上。

2023-03-30 15:22:48 1163

原创 IDEA中Maven报错:Failed to read artifact descriptor for解决方案

1、打开项目后，在Intellij 右侧有个Maven projects，点开后，有个Lifecycle，再点开，可以看到clean , validate, compile, ….，双击clean，这里的project是我们的项目实际的名字。2、在同样的地方（Lifecycle)里找到install, 双击install，这里的project同样是我们的具体项目的名字，这个过程比较久，如果有遇到哪个jar包不能下载的情况，可以手动将其放到本地的maven目录下。.”消失，需要的依赖开始下载。

2023-02-28 19:57:24 5733 1

原创大数据小tips

切片数量影响MapTask，分区数量影响ReduceTask。

2023-02-22 19:08:06 125

原创 datax动态传参

datax动态传参

2022-12-13 15:58:15 746

原创 SQL执行顺序join在where前面

原本意图是取a表的昨日分区数据和b表的昨日分区数据进行join，但是发现加上and b.dt = '${daily}'的条件后就取不到在a表中存在的数据了。现在子查询中将b表的昨日分区查询出来，再和a表join。可以看到正常查询出a表中的数据了。

2022-10-18 17:22:54 1973

原创将null或者空字符串置为‘unknown‘

【代码】将null或者空字符串置为'unknown'

2022-09-06 17:28:59 224

原创 Flink内存调优篇-广告实时统计的优化

布隆过滤器本质上是一个二进制向量(位数组)和一系列随机映射函数(哈希函数)，用于判断数据一定不存在，或者可能存在。使用布隆过滤器去重，首先准备长度为M的位数组和K个哈希函数，对于到来的数据进行K次哈希，并将位数组中hash值对应的位置修改为1。举例说明，现有4条所需处理数据(ZFB,WX,DY,ZFB)，准备以下位数组以及2个哈希函数位数组第一条数据ZFB到来，经过两次哈希，分别将位数组哈希对应位置由0修改为1第二条数据WX到来，经过两次哈希，分别将位数组哈希对应位置由0修改为1。

2022-08-25 09:42:05 1710

原创 kafka tool 2.0.7基本使用

kafka tool

2022-06-28 10:32:43 707

原创正则表达式基础

正则表达式描述了一种字符串匹配的模式，也称规则表达式对字符串做这四件事：替换|分割|匹配|提取首选正则\d 一个任意数字 0~9\D 一个非数字除了0~9\w 一个字母 az|AZ|0~9\W 一个非字母\s 一个空格\S 一个非空格[] 字符选择器只匹配一个“字符” [a-c]:a到c之间任意一个字符 [ac]：a和c之间任意一个字符{} 范围修饰符(修饰前面一个符号出现了多少次) \d{1,2}：最多出现2个，最少出现1个() 字符串选择器分组 (com|org)? 修饰符(

2022-06-24 10:55:25 133

原创 idea本地运行scope

idea

2022-06-17 11:08:32 729

原创 pgsql批量插入

pgsql

2022-06-15 15:06:51 1187

原创 hive建表后缀

hive建表后缀

2022-06-07 10:27:24 1047

原创 clickhouse对比两台机器数据

select concat(database,'.',name),total_rows from system.tables where engine='MergeTree' and database != 'system' and total_rows!=0 order by database,name;两台机器分别跑，导出数据后对比

2022-05-30 10:17:43 442

原创纵向求最大最小与横向求最大最小greatest(),least(),max(),min()

greatest (a,b,c,d,e)greatest 求的是某几列的最大值，横向求最大(一行的多列记录求最大)注意:a,b,c,d,e列中不能出现null值，否则greatest()返回值为null值selectgreatest(nvl(substr(a.update_time,1,10),0),nvl(substr(b.dt_editdate,1,10),0),nvl(substr(coalesce(c.editdate,c.adddate),1,10),0),nvl(substr(e

2022-05-30 09:55:16 361

原创 Hive行列转换

1.多行转多列姓名(name)学科(subject)成绩(score)A语文70A数学80A英语90B语文75B数学85B英语95行列转换思路分析及实现多行转多列如果需要将上⾯的样例表转换为姓名 | 语⽂成绩 | 数学成绩 | 英语成绩这样的格式，就是多行转多列思路：涉及到行转成列，肯定是会按照某⼀列或者某⼏列的值进⾏分组来压缩⾏数，所以会⽤到group by。分组之后需要⽤到聚合函数，由于多列中的每列只关

2022-05-25 15:05:58 8574 1

原创 hive count结果为0

加上limit 1 正常查询select count（*） from table limit 1;

2022-05-24 13:44:04 659 1

原创 hive表注释全是？

现象解决办法把数据库元数据字符集调整了utf-8，发现还是不行，然后把hive连接元数据的url加了utf-8,新建的表注释正常显示了，但是之前乱码的仍旧是乱码

2022-05-23 13:46:37 266

原创关于orc存储格式

A表是orc存储格式，创建和A表相同结构的B表，将A表的数据全部按分区移动到B表，发现B表的文件大小比A表小很多，B表的每个分区都比A表的对应分区小随机选了一天分区A表200k，B表16K

2022-05-17 20:49:10 458

原创修改分区字段数据类型(convert string to date)

1.创建一张临时表，分区字段类型为date，其他和原始表一样CREATE TABLE `smartdb`.`smart_company_daily_dws_temp`( `parent_company_name` string COMMENT '父服务单位名称', `company_name` string COMMENT '服务单位名称', `source` string COMMENT '来源', .

2022-05-17 19:10:53 675

原创 hive动态分区后多出5个异常分区文件

背景分区字段dt为date类型，使用动态分区将四年半的数据按照日分区写入对应的分区中，动态分区后多出五个异常分区这五个异常分区时string类型，都是空分区，里面没有数据由于非日期类型影响了BI查询，所以需要将这五个分区删掉解决方法1.使用alter table smartdb.smart_company_daily_dws drop partition(dt=‘F7A5457433’);alter table smartdb.smart_company_daily_dws drop .

2022-05-17 17:00:01 563

原创 flink watermark

flink1.12版本开始，事件事件作为默认的时间语义工厂生产的商品上面印有时间戳，八点到九点的商品要坐一班车运走，商品从生产到运上车中间有一定的时间间隔，班车不能以系统时间作为时间判断标准，而应该以商品上面自带的时间戳作为时间判断标准，八点十分的商品来了，班车认为现在时间到了八点十分，九点钟的商品来了，班车认为现在时间到了九点，那么班车就带着[8,9)的商品出发了但是这样的话只有当前的班车知道现在时间是多少，后面的班车不知道现在时间(逻辑时间)，那么后面的班车就不能进行时间相关的操作应该有一个标

2022-04-29 19:50:33 1775

原创 org.apache.hadoop.hive.ql.exec.MoveTask

背景在测试环境使用个人账号创库创表在对表进行insert overwrite table 操作的时候出现下面报错Error while processing statement: FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.MoveTask. Exception when loading 42 in table intelligent_customer_service_wide_dwd wi.

2022-04-14 15:31:28 3133

原创 Hive查询

筛选时间：当个月份，默认当前月到昨天；where month(event_time) = month(current_date()) and event_time < current_date()

2022-04-07 16:02:22 2267

原创 shell脚本

today = date +%Y-%m-%dyesterday = date -d "1 day ago" +%Y-%m-%dthis_month = date +%Y-%mone_year_ago = date -d "1 year ago" +%Y-%m-%d

2022-04-07 16:02:02 483

转载定位block块位置

异常Caused by: org.apache.hadoop.hdfs.CannotObtainBlockLengthException: Cannot obtain block length for LocatedBlock{BP-215372827-172.23.30.41-1598540639502:blk_1112686982_38963124; getBlockSize()=101167104; corrupt=false; offset=0; locs=[DatanodeInfoWith.

2022-04-07 14:22:43 865

空空如也

空空如也