自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 一个脚本在cdp impala中跑不出结果,也不报错

记录下最近遇到的问题最近集群迁移 cdh to cdp 一个脚本在cdp impala中跑不出结果,也不报错,进度也显示100%查看执行计划也并无发生异常,全是小表数据量不大最后实在没有办法求助大佬,大佬看了几眼,让我去查看源表在两个集群的数据量差异,然后说可能是表的数据有问题造成了笛卡尔积之类的,然后观察表的数据量后发现有一个码表的数据量重复了100+个分区(而在cdh上只有一个分区)造成了数据量级翻倍所以一直跑不出来。我当时就给大佬拍了一吨的马屁,持续输出了一个小时,最后大佬告诉我:大佬原

2022-06-09 10:16:13 246

原创 CDP impala UDF ERROR String to Decimal parse failed

最近公司集群迁移 从cdh到cdp 在cdp上执行脚本的时候报错搞半天后发现,是impala3.0以上的版本默认使用decimal_v2我们只需要 set decimal_v2=false 就可以和老版本一样了

2022-06-09 09:58:30 792

原创 scala中faltMap和map的区别

scala中map是将每一条输入通过给定的函数映射为一个新对象,flatMap相比较于map可以理解为map+flattenflatten:遍历每一个可以遍历的的元素并且返回一个集合(该集合不包含内置集合) /** Converts this $coll of traversable collections into * a $coll formed by the elements of these traversable * collections. * * @tpar

2022-04-26 15:00:42 217

转载 in和exists的区别

IN:确定给定的值是否与子查询或列表中的值相匹配。in在查询的时候,首先查询子查询的表,然后将内表和外表做一个笛卡尔积,然后按照条件进行筛选。所以相对内表比较小的时候,in的速度较快。EXISTS:指定一个子查询,检测行的存在。遍历循环外表,然后看外表中的记录有没有和内表的数据一样的。匹配上就将结果放入结果集中。...

2021-09-09 18:07:36 187

原创 select 1和select count(*)区别

select 1是查询有没有满足条件的数据select count(*)是判断满足条件的数据有多少条

2021-09-09 18:04:01 117

原创 HIVE踩坑——NULL和空字符‘‘串处理

这里我们针对在HIVE中遇到的NULL和空字符串问题进行简单探讨,避免踩坑!!!简单探索首先新建一张测试表test_01,用作后续测试CREATE TABLE IF NOT EXISTS test_01(id INT, name STRING,age INT, score FLOAT)ROW FORMAT DELIMITED FIELDS TERMINATED BY ‘,’ STORED AS TEXTFILE;新增简单的几条测试数据,具体如下insert overwrite table

2021-08-31 16:51:40 1492

原创 hell中单引号和双引号以及反引号区别 ’‘ , ”“ ,``

hell中单引号和双引号以及反引号区别 ’‘ , ”“ ,``1)在/home/ityouxin/bin创建一个test.sh文件[ityouxin@hadoop102 bin]$ vim test.sh在文件中添加如下内容#!/bin/bashdo_date=$1echo ‘$do_date’echo “$do_date”echo “’$do_date’”echo ‘"$do_date"’echo date2)查看执行结果[ityouxin@hadoop102 bin]$ test

2021-08-26 15:52:08 104

原创 在hadoop集群中hadoop102执行xcall.sh jps显示bash: jps: command not found 脚本运行无反应

在hadoop集群中hadoop102执行xcall.sh jps显示bash: jps: command not found我吐了呀,在学习kafka的时候又遇到了一个问题,*币东西的。xcall.sh 的代码如下:#! /bin/bashfor i in hadoop102 hadoop103 hadoop104doecho --------- $i ----------ssh i"i "i"*"done没毛病呀,我前几天都能运行这个脚本查看集群的jps的,大概原因就在昨天我安装kyl

2021-05-20 13:44:58 733

原创 hadoop中GroupingComparator分组(辅助排序)

GroupingComparator分组(辅助排序)这里举例说明:需求:由上图结合GroupingComparator分组,我们可以做出这样的分析:需要利用“订单id和成交金额”作为key,可以将Map阶段读取到的所有订单数据按照id升序排序,如果id相同再按照金额降序排序,发送到Reduce。这里商品id无关紧要我们把它去除.接下来我们就定义orderBean:import org.apache.hadoop.io.WritableComparable;import java.io.Da

2021-04-16 22:21:18 290

转载 Hadoop中Writable,WritableComparable,WritableComparator之间有什么区别? 先上图大致理解一下

Hadoop中Writable,WritableComparable,WritableComparator之间有什么区别? 先上图大致理解一下这都是什么?一、Writable(接口):其实Java用的是一套重量级的序列化框架(Serializable),一个类实现了序列化之后此类对象会附带各类校验啊、继承体啊、header等额外信息,更多的信息使得此种序列化机制不便于在网络中高效传输,对于本就是用来传输大数据的hadoop框架更不合适 。所以Hadoop使用自己的序列化机制,就是Writable,

2021-04-16 19:37:30 290

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除