Hive的in与not in 值中有null的时候注意事项,join where条件等问题 在进行hive SQL查询数据的时候,where条件中使用了in或者not in,但是该值内有null空。这时,无论是in还是not in,空值都不会进入该条件内,但是使用not in的时候只是希望把自己不想要的数据给排除掉,这时会同步把为null的数据也进行排除掉了。所以,在写not in或者in的时候,如果希望保留为null的数据。最好加一条where (col not in (1,2,3,4) or col is null)同样,进行先join 后where操作的时候,同样要注意值为n
Sqoop从MySQL导数据至hive数据表异常(数据量不对,数据值不对) 通过数据比对,发现sqoop导入hive的数据与MySQL原始数据对应不上,表现为两点:①查数据总数不对,MySQL的count(1) = 108120条数据,但是导入至hive发现只有108112条数据,数据发生了丢失。②应查数据值不对,查询到某个字段,MySQL值中仅有1,2两种值,但是hive表中包含1,2,以及一串看不懂的数字。经反复核对数据,发现问题症结,所以就将它记录下来了。...
Flink侧输出流执行报错,org.apache.flink.api.common.functions.InvalidTypesException Flink侧输出流执行报错,org.apache.flink.api.common.functions.InvalidTypesException
azkaban直接写脚本运行,不写flow文件 Azkaban直接调度 编辑两个文件 .job文件 type=commandcommand=sh ./a.sh .sh脚本文件 具体的脚本 指定在具体某一台机器上执行
hive 自定义UDF函数 自定义UDF函数0)需求:自定义一个UDF实现计算给定基本数据类型的长度,例如:hive(default)> select my_len("abcd");41)创建一个Maven工程Hive2)导入依赖<dependencies><dependency><groupId>org.apache.hive</groupId><artifactId>hive-exec</artifactId>
flink cdc 解析op ali利用flink在进行CDC监控mysql的时候,默认的序列化的return对象的字符串,通常需要自定义反序列化器,其中获取op类型可以使用://获取操作类型Envelope.Operation op = Envelope.operationFor(record);
kafka自定义组件:自定义生产者(含自定义分区),自定义消费者,自定义拦截器 自定义组件:自定义生产者(含自定义分区),自定义消费者,自定义拦截器自定义生产者:官网地址:https://kafka.apache.org/26/javadoc/index.html?org/apache/kafka/clients/producer/KafkaProducer.html * 1. 创建生产者配置对象 * 2. 添加配置信息 * 3. 创建生产者对象 * 4. 调用send发送消息 * 5. 关闭资源 * 6. 创建静态内部类,返回当前类对象 //代码: ..