hive
醉糊涂仙
这个作者很懒,什么都没留下…
展开
-
python向hive中写入数据
1,读取数据2,创建外表from pyhive import hiveimport pandas as pdimport datetimefrom datetime import timedeltaimport time#获取Hive连接def getHiveConn(): conn = None try: conn = hive.Co...原创 2020-03-31 16:31:46 · 18501 阅读 · 0 评论 -
python操作hive
from pyhive import hive#获取Hive连接def getHiveConn(): conn = None try: conn = hive.Connection(host='20.58.32.9', port=10000, username='hive', database='risk') except Exception as...原创 2020-04-01 16:39:51 · 2652 阅读 · 2 评论 -
hive查询数据排序加编号row_number() over()
create table TEST_ROW_NUMBER_OVER( id varchar(10) not null, name varchar(10) null, age varchar(10) null, salary int null);select * from TEST_ROW_NUMBER_OVER t; insert ...转载 2019-12-11 17:39:25 · 3917 阅读 · 0 评论 -
hive加减月份,获取上个月日期(前几个月)
笔者需求:根据日期201910获取半年前的日期201904。读者需求:根据自身需求自行微调。1,如果拿到的日期格式不是标准格式(yyyy-MM-dd HH:mm:ss),先转成时间戳。select unix_timestamp('201910', 'yyyyMM') from dual;--返回结果:15698592002,再将时间戳转成标准时间格式。select fro...原创 2019-12-05 11:20:59 · 44916 阅读 · 6 评论 -
in insert schema specification are not found among regular columns of nor dynamic partition columns
问题描述:hive插入数据时报错,sql很简单却报错了insert into table1 (c1, c2, c3) select c1, c2, c3from table2分析:hive插入数据时不能指定列名插入,默认是全列插入!!!目前高版本支持指定列插入,而低版本不支持指定列插入。insert into table1select c1, c2, c3from tabl...原创 2019-11-12 11:42:59 · 10115 阅读 · 0 评论 -
hive求一行的最大值
1. 准备数据表test2create table test2(a int,b int,c int,d int,e int);2. 准备2条数据insert into table test2 values(5,1,3,8,6);insert into table test2 values(6,2,5,11,9);3. 现在要求出a,b,c,d,e 5个字段中每...转载 2019-11-06 11:22:37 · 6322 阅读 · 1 评论 -
hivesql执行不动(锁表)
一,场景 在执行insert into或insert overwrite任务时,中途手动将程序停掉。后续再执行任务,哪怕任务非常简单也会出现卡死情况(无法提交MapReduce),无论执行多久,都会保持卡死状态。二,原因 hive表被锁或者某个分区被锁,需要解锁三,解决办法(1)重新再建一张不同表名的表(2)给表或者分区解锁1,首先查看锁表...原创 2019-10-22 16:33:32 · 2193 阅读 · 0 评论 -
使用pyhive模块往hive中写入数据,通过impala查询不到数据,通过hive客户端可以查到数据
在这种情况下,使用impala查询需要刷新元数据,把元数据信息统计到impala元数据存储中,再做查询。//重新加载所有库中的所有表INVALIDATE METADATA//重新加载指定的某个表INVALIDATE METADATA [table]...原创 2019-10-12 11:23:39 · 797 阅读 · 0 评论 -
hiveSQL统计电压特征
insert into hn_tag.statistic_vol_A (meter_id, differ_month , qoq_month , yoy_month , last_month_vol_max , last_month_vol_min , last_month_vol_mean , last_month_vol_std , last_month_vol_quantile25 , ...原创 2019-09-29 17:19:10 · 347 阅读 · 0 评论 -
Python连接hive报错Could not start SASL: Error in sasl_client_start (-4) SASL(-4): no mechanism available
Could not start SASL: Error in sasl_client_start (-4) SASL(-4): no mechanism available: No worthy mechs found (code THRIFTTRANSPORT): TTransportException('Could not start SASL: Error in sasl_client_st...原创 2019-07-26 18:11:24 · 11918 阅读 · 1 评论 -
python连接hive配置
注:Python端所在服务器为centos6.8一,hive安装配置参考博文:https://blog.csdn.net/u010916338/article/details/89764877重要一点,hive是个客户端,不是集群,在hive所在节点必须执行如下命令:hive --service hiveserver2参考博文:https://blog.csdn.net/zha...原创 2019-07-25 18:45:27 · 7572 阅读 · 0 评论 -
hive内表和外表
真实数据和元数据区分参考博文:https://blog.csdn.net/u010916338/article/details/90247121一,内表1,真实数据存放在hdfs上。2,真实数据存放在hive默认创建的路径下。如图所示stu就是内表。3,内表一般都是先创建表再插入数据。 注:采用方式(1)插入数据,创建表不需要指定分割符: cre...原创 2019-05-15 23:45:28 · 5571 阅读 · 2 评论 -
hive解析
1,hive其实是在MapReduce上包了一层壳,hql语句最终还是翻译成MapReduce任务运行。2,真实数据还是存放在hdfs上。3,hive默认将元数据信息放到Derby数据库中,现实中我们喜欢放到mysql中。如何理解元数据呢?可以理解成真实数据的路径,如上图所示如果找到了/user/hive/warehouse/park.db/stu也就找到了真实数据。而mysql...原创 2019-05-15 23:20:49 · 747 阅读 · 0 评论 -
hive安装
简介:Apache Hive是数据仓库。通过Hive可以使用HQL语言查询存放在HDFS上的数据。HQL是一种类SQL语言,这种语言最终被转化为Map/Reduce. 虽然Hive提供了SQL查询功能,但是Hive不能够进行交互查询--因为它是基于MapReduce算法。划重点:hive不用和其他组件一样进行分布式集群安装Note, Hive is not something you in...原创 2019-05-02 21:31:23 · 539 阅读 · 0 评论 -
Ad hoc queries(即席查询)
资料来源百度百科:https://baike.baidu.com/item/%E5%8D%B3%E5%B8%AD%E6%9F%A5%E8%AF%A2/2886987即席查询(Ad Hoc)是用户根据自己的需求,灵活的选择查询条件,系统能够根据用户的选择生成相应的统计报表。即席查询与普通应用查询最大的不同是普通的应用查询是定制开发的,而即席查询是由用户自定义查询条件的。浅析即席查询 在数据仓...转载 2018-08-11 14:43:49 · 8827 阅读 · 0 评论