东北F4流星雨-CSDN博客

原创一个脚本在cdp impala中跑不出结果，也不报错

记录下最近遇到的问题最近集群迁移 cdh to cdp 一个脚本在cdp impala中跑不出结果，也不报错，进度也显示100%查看执行计划也并无发生异常，全是小表数据量不大最后实在没有办法求助大佬，大佬看了几眼，让我去查看源表在两个集群的数据量差异，然后说可能是表的数据有问题造成了笛卡尔积之类的，然后观察表的数据量后发现有一个码表的数据量重复了100+个分区（而在cdh上只有一个分区）造成了数据量级翻倍所以一直跑不出来。我当时就给大佬拍了一吨的马屁，持续输出了一个小时，最后大佬告诉我：大佬原

2022-06-09 10:16:13 262

原创 CDP impala UDF ERROR String to Decimal parse failed

最近公司集群迁移从cdh到cdp 在cdp上执行脚本的时候报错搞半天后发现，是impala3.0以上的版本默认使用decimal_v2我们只需要 set decimal_v2=false 就可以和老版本一样了

2022-06-09 09:58:30 831

原创 scala中faltMap和map的区别

scala中map是将每一条输入通过给定的函数映射为一个新对象，flatMap相比较于map可以理解为map+flattenflatten：遍历每一个可以遍历的的元素并且返回一个集合（该集合不包含内置集合） /** Converts this $coll of traversable collections into * a $coll formed by the elements of these traversable * collections. * * @tpar

2022-04-26 15:00:42 226

转载 in和exists的区别

IN：确定给定的值是否与子查询或列表中的值相匹配。in在查询的时候，首先查询子查询的表，然后将内表和外表做一个笛卡尔积，然后按照条件进行筛选。所以相对内表比较小的时候，in的速度较快。EXISTS：指定一个子查询，检测行的存在。遍历循环外表，然后看外表中的记录有没有和内表的数据一样的。匹配上就将结果放入结果集中。...

2021-09-09 18:07:36 200

原创 select 1和select count(*)区别

select 1是查询有没有满足条件的数据select count(*)是判断满足条件的数据有多少条

2021-09-09 18:04:01 125

原创 HIVE踩坑——NULL和空字符‘‘串处理

这里我们针对在HIVE中遇到的NULL和空字符串问题进行简单探讨，避免踩坑！！！简单探索首先新建一张测试表test_01，用作后续测试CREATE TABLE IF NOT EXISTS test_01(id INT, name STRING,age INT, score FLOAT)ROW FORMAT DELIMITED FIELDS TERMINATED BY ‘,’ STORED AS TEXTFILE；新增简单的几条测试数据，具体如下insert overwrite table

2021-08-31 16:51:40 1543

原创 hell中单引号和双引号以及反引号区别 ’‘ ， ”“ ，``

hell中单引号和双引号以及反引号区别 ’‘ ， ”“ ，``1）在/home/ityouxin/bin创建一个test.sh文件[ityouxin@hadoop102 bin]$ vim test.sh在文件中添加如下内容#!/bin/bashdo_date=$1echo ‘$do_date’echo “$do_date”echo “’$do_date’”echo ‘"$do_date"’echo date2）查看执行结果[ityouxin@hadoop102 bin]$ test

2021-08-26 15:52:08 112

原创在hadoop集群中hadoop102执行xcall.sh jps显示bash: jps: command not found 脚本运行无反应

在hadoop集群中hadoop102执行xcall.sh jps显示bash: jps: command not found我吐了呀，在学习kafka的时候又遇到了一个问题，*币东西的。xcall.sh 的代码如下：#! /bin/bashfor i in hadoop102 hadoop103 hadoop104doecho --------- $i ----------ssh i"i "i"*"done没毛病呀，我前几天都能运行这个脚本查看集群的jps的，大概原因就在昨天我安装kyl

2021-05-20 13:44:58 770

原创 hadoop中GroupingComparator分组（辅助排序）

GroupingComparator分组（辅助排序）这里举例说明:需求:由上图结合GroupingComparator分组,我们可以做出这样的分析:需要利用“订单id和成交金额”作为key，可以将Map阶段读取到的所有订单数据按照id升序排序，如果id相同再按照金额降序排序，发送到Reduce。这里商品id无关紧要我们把它去除.接下来我们就定义orderBean:import org.apache.hadoop.io.WritableComparable;import java.io.Da

2021-04-16 22:21:18 313

转载 Hadoop中Writable，WritableComparable，WritableComparator之间有什么区别？先上图大致理解一下

Hadoop中Writable，WritableComparable，WritableComparator之间有什么区别？先上图大致理解一下这都是什么？一、Writable（接口）：其实Java用的是一套重量级的序列化框架（Serializable），一个类实现了序列化之后此类对象会附带各类校验啊、继承体啊、header等额外信息，更多的信息使得此种序列化机制不便于在网络中高效传输，对于本就是用来传输大数据的hadoop框架更不合适。所以Hadoop使用自己的序列化机制，就是Writable，

2021-04-16 19:37:30 299

ergeg1的博客