- 博客(11)
- 资源 (5)
- 收藏
- 关注
原创 hive报错
使用使用hive执行任务的时候,执行一半了,提示Job failed with java.lang.NullPointerExceptionFAILED: Execution Error, return code 3 from org.apache.hadoop.hive.ql.exec.spark.SparkTask. Spark job failed during runtime. Please check stacktrace for the root cause.嗯? 嗯? 嗯?我可是上过
2021-09-10 13:23:53 376 1
原创 大数据批流一体框架
大数据批流一体架构黄大先生创业者 游弋大数据+人工智能这个是阿里的架构,flink能取的巨大的成功离不开阿里的贡献,其实flink本身就支持批处理和流式计算了,只是他本身只是个计算引擎,不做存储,所以就引入了hive数仓用flink和hive实现了批流一体的架构。具备实时流数据和离线数据的接入和分析能力。支持kafka,socket等数据源批流一体就是同时支持离线计算和实时计算并且流数据可以和离线的批数据进行碰撞分析针对离线数据,数据是离线数据,计算方式是批处理。对
2021-08-20 14:33:39 491
转载 hive行列转置,爆炸函数实例
Hive的常用函数(nvl,case when,行转列,列转行,爆炸函数)综述:在Hive中有六类常用的函数,除了本文讲述的四类函数之外,还有rank函数,和开窗函数,Hive中的自定义函数一般被分成了三类UDF:uer-defined-function 一进一出UDAF:user-defined-aggregation-function 多进一出UDTF:user-define...
2021-08-19 11:06:38 747
原创 HiveSQL底层的执行过程
select 语句执行分析购买苹果手机iphone7的情况select order_id,buyer_id,cate_name from order_table where day='20170101' and cate_name='iphone7';1输入分片:在实际项目中,订单表通常会进行分区,一般按照自然天进行分区,SQL限制day=20170101实际上就限制了day=20170101的分区文件(如果不限制分区条件的话,hadoop会读取订单的所有文件,假如有两年730天的订单,那么就.
2020-06-19 10:55:06 515
原创 linux 常用命令总结
Linux常用命令大全(非常全!!!)最近都在和Linux打交道,感觉还不错。我觉得Linux相比windows比较麻烦的就是很多东西都要用命令来控制,当然,这也是很多人喜欢linux的原因,比较短小但却功能强大。我将我了解到的命令列举一下,仅供大家参考:系统信息arch 显示机器的处理器架构(1)uname -m 显示机器的处理器架构(2)uname -r 显示正在使用...
2019-05-16 15:28:19 133
转载 ssh 免密码登陆原理
1. 初见SSHSSH是一种协议标准,其目的是实现安全远程登录以及其它安全网络服务。SSH仅仅是一协议标准,其具体的实现有很多,既有开源实现的OpenSSH,也有商业实现方案。使用范围最广泛的当然是开源实现OpenSSH。2. SSH工作原理在讨论SSH的原理和使用前,我们需要分析一个问题:为什么需要SSH?从1.1节SSH的定义中可以看出,SSH和telnet...
2019-05-14 11:22:08 648
原创 ssh服务的安装
1. 安装openssh-serveryum install -y openssl openssh-server2. 修改配置文件用vim打开配置文件/etc/ssh/sshd_config将上图的PermitRootLogin,RSAAuthentication,PubkeyAuthentication的设置打开。启动ssh的服务:systemctl sta...
2019-05-14 10:24:29 296
原创 那些年踩过的静态IP的坑
最近在VMware虚拟机里玩Centos,装好后发现上不了网。经过一番艰辛的折腾,终于找到出解决问题的方法了。最终的效果是无论是ping内网IP还是ping外网ip,都能正常ping通。step1: 配置静态IP地址1.cd /etc/sysconfig/network-scripts2.ls3.vi ifcfg-ens33改掉或添加红框内的参数....
2019-05-13 16:00:38 249
原创 hive取不同班级前三名问题
1.hive只支持from里的子查询。1.通过开窗函数实现ROW_NUMBER() OVER 顺序排序。RANK() OVER 跳跃排序,如果有两个第一级别时,接下来是第三级别。DENSE_RANK() OVER连续排序,如果有两个第一级别时,接下来是第二级别。select * from (select a.math ,studentid ,a.cl...
2019-05-10 14:59:47 1498
原创 hive 开窗函数的使用
1、背景窗口函数的引入是为了解决 想要既显示聚集前的数据,又要显示聚集后的数据。开窗函数对一组值进行操作,不需要使用GROUP BY子句对数据进行分组,能够在同一行中同时返回基础行的列和聚合列。2、常见用法over() 按所有行进行分组over(partition by xxx) 按xxx分组的所有行进行分组over(partition by xxx order by aaa) ...
2019-05-10 11:05:20 374
原创 集群搭建_朝花夕拾
1.安装安装前准备:装有openssh server的ubuntu14.04 系统三台(也可以准备1台,后面进行虚拟机的克隆,或者导入导出)。这儿需要三台机器在同一个网段内。开始安装1)启动三台虚拟机,分别修改主机名1.sudo vim /etc/hostname分别命名为:HadoopMasterHadoopSlave1HadoopSlave2ps:重启后...
2019-05-05 16:33:58 106
官方Gbase sql手册
2019-04-12
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人