- 博客(9)
- 收藏
- 关注
原创 Hive的in与not in 值中有null的时候注意事项,join where条件等问题
在进行hive SQL查询数据的时候,where条件中使用了in或者not in,但是该值内有null空。这时,无论是in还是not in,空值都不会进入该条件内,但是使用not in的时候只是希望把自己不想要的数据给排除掉,这时会同步把为null的数据也进行排除掉了。所以,在写not in或者in的时候,如果希望保留为null的数据。最好加一条where (col not in (1,2,3,4) or col is null)同样,进行先join 后where操作的时候,同样要注意值为n
2022-04-20 17:58:14
3412
原创 Sqoop从MySQL导数据至hive数据表异常(数据量不对,数据值不对)
通过数据比对,发现sqoop导入hive的数据与MySQL原始数据对应不上,表现为两点:①查数据总数不对,MySQL的count(1) = 108120条数据,但是导入至hive发现只有108112条数据,数据发生了丢失。②应查数据值不对,查询到某个字段,MySQL值中仅有1,2两种值,但是hive表中包含1,2,以及一串看不懂的数字。经反复核对数据,发现问题症结,所以就将它记录下来了。...
2022-04-19 14:34:19
3873
1
原创 Flink侧输出流执行报错,org.apache.flink.api.common.functions.InvalidTypesException
Flink侧输出流执行报错,org.apache.flink.api.common.functions.InvalidTypesException
2021-11-25 14:18:31
2504
原创 azkaban直接写脚本运行,不写flow文件
Azkaban直接调度 编辑两个文件 .job文件 type=commandcommand=sh ./a.sh .sh脚本文件 具体的脚本 指定在具体某一台机器上执行
2021-07-07 18:48:50
208
原创 hive 自定义UDF函数
自定义UDF函数0)需求:自定义一个UDF实现计算给定基本数据类型的长度,例如:hive(default)> select my_len("abcd");41)创建一个Maven工程Hive2)导入依赖<dependencies><dependency><groupId>org.apache.hive</groupId><artifactId>hive-exec</artifactId>
2021-05-17 20:27:19
667
原创 flink cdc 解析op
ali利用flink在进行CDC监控mysql的时候,默认的序列化的return对象的字符串,通常需要自定义反序列化器,其中获取op类型可以使用://获取操作类型Envelope.Operation op = Envelope.operationFor(record);
2021-04-24 22:11:23
1483
原创 kafka自定义组件:自定义生产者(含自定义分区),自定义消费者,自定义拦截器
自定义组件:自定义生产者(含自定义分区),自定义消费者,自定义拦截器自定义生产者:官网地址:https://kafka.apache.org/26/javadoc/index.html?org/apache/kafka/clients/producer/KafkaProducer.html * 1. 创建生产者配置对象 * 2. 添加配置信息 * 3. 创建生产者对象 * 4. 调用send发送消息 * 5. 关闭资源 * 6. 创建静态内部类,返回当前类对象 //代码: ..
2021-04-22 21:08:17
199
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人