impala报错NoSuchMethodError: org.apache.hadoop.hive.metastore.MetaStoreUtils.updatePartitionStatsFast

背景 在使用impala往表的新分区写数据时报错 NoSuchMethodError: org.apache.hadoop.hive.metastore.MetaStoreUtils.updatePartitionStatsFast(Lorg/apache/hadoop/hive/metast...

2019-01-09 16:09:05

阅读数:25

评论数:0

Apache Kudu 的事务概念

Kudu 旨在最终完全获得 ACID ,但是多 tablet 事务尚未实施。最终 Kudu 将支持完全严格的可序列化语义。事实上,它已经在有限的范围内,但并不是所有的角落都被覆盖,因为这仍然是一个正在进行的工作。 Kudu 目前允许以下操作: Write operations是在具有多个副本的单...

2019-01-09 14:54:41

阅读数:27

评论数:0

Impala create file /tmp/impala-scratch 报错

背景 使用impala对大数据量进行处理时出现如下错误 Create file /tmp/impala-scratch/XXX failed with errno=2 description=Error(2): No such file or directory 原因 查资料发现impala在大...

2019-01-09 08:18:12

阅读数:20

评论数:0

python连接impala

网上的教程一般都是使用impyla,这里就不详细描述。因为项目本身先是用的HIVE作业,使用的是pyhive。安装impyla时,有些依赖包与之前的冲突,导致impala可以连接,但是hive连接不上,所以只能想别的办法。 经过尝试后,发现pyhive可以直接连接impala,LZ的impala是...

2019-01-05 10:30:31

阅读数:31

评论数:0

Kudu模式设计

Kudu 表具有与传统 RDBMS 中的表类似的结构化数据模型。模式设计对于实现 Kudu 的最佳性能和运行稳定性至关重要。每个工作负载都是独一无二的,没有一个最合适每个表的单一模式设计。在高层次上,创建 Kudu 表有三个问题:列设计,主键设计和分区设计。其中只有分区对于熟悉传统的非分布式关系数...

2019-01-02 08:34:00

阅读数:53

评论数:0

KUDU和IMPALA的结合使用

Kudu 与 Apache Impala紧密集成,允许使用 Impala 的 SQL 语法从 Kudu tablets 插入,查询,更新和删除数据。此外,还可以用 JDBC 或 ODBC, Impala 作为代理连接 Kudu 进行数据操作。 配置 Kudu 内不需要进行配置更改,从而可以访问 I...

2018-12-28 08:54:00

阅读数:107

评论数:0

KUDU架构原理

基本概念 Table table 是数据存储在 Kudu 的位置,具有 schema 和全局有序的 primary key。table 被分成称为 tablets 的 segments。 Tablet 一个 tablet 是一张 table 连续的 segment,与其它数据存储引擎或关系型数据库...

2018-12-27 08:58:20

阅读数:125

评论数:0

Impala查询不到hive数据

背景 hive写入的数据,hive是可以查到数据,impala进行过元数据的刷新,然后查询此表,查询成功,返回结果是空表。 原因 写入数据的SQL里使用了UNION,导致HDFS目录结构多了一层,本来是分区底下直接是数据,使用了UNION后,有几个UNION,分区底下会出现几个文件夹,依次为...

2018-12-13 18:30:47

阅读数:74

评论数:0

SSH可用,SFTP登录不上,提示connection closed

1、 可能是密码过期,重置密码即可 2、 初次使用的话,查看sftp-server(/usr/libexec/openssh/sftp-server)是否有权限,没有权限则加权限 可以使用chmod 755 3、 vi /etc/passwd 把要登录用户最后的/bin/false改为/bin/b...

2018-12-06 14:40:31

阅读数:226

评论数:0

Impala实时刷新同步Hive元数据

背景 通过HIVE对数据进行操作或更新元数据,Impala是无感知的,官方提供了两种手动刷新的方式,分别是INVALIDATE METADATA和REFRESH操作。但是使用起来相当不方便,针对此问题,想到两种简单的应对方案。 方案一 如果ETL处理都是通过脚本执行,那么可以考虑在脚本中添加...

2018-11-30 08:12:53

阅读数:188

评论数:0

Impala 代替 hive COLLECT_SET函数的方式

背景 之前是在HIVE上开发,GROUP BY 某些字段后,其他字段使用COLLECT_SET(ITEM)[0]的方式取相同字段值中的一个,而在Impala上没有COLLECT_SET函数。 方案 使用GROUP_CONCAT函数+SPLIT_PART函数替代 ## IMPALA SELECT S...

2018-11-15 09:25:00

阅读数:141

评论数:0

Hadoop dr.who问题

背景 昨天在生产环境偶然发现,yarn的一些日志访问不了,报如下错误 User [dr.who] is not authorized to view the logs for application;然后发现hdfs管理界面有些文件目录页进不去,登录即右上角为logged in as dr.who...

2018-11-14 08:28:56

阅读数:787

评论数:0

Impala权限控制

开头 Impala因为是Cloudera出的,所以官方文档说明里只写了使用自家的Sentry方式进行权限管理,而对于Hortonworks家的Ranger只字未提,网上都是说可以通过特殊方案集成到Ranger上,但是没有找到具体方案,在此也提不了了。 首先,Sentry 的使用有两种方式,一是基于...

2018-11-08 21:08:16

阅读数:145

评论数:0

Sentry与Ranger

Sentry:RBAC(role-based acess control)基于角色的管理,比如Cloudera用的是Sentry,华为的FusionInsight也采用类似的机制。 即:通过创建角色,将每个组件的权限授予给此角色。然后在用户中添加此角色,即用户具备此角色访问组件的权限(组也类似)...

2018-11-07 22:15:06

阅读数:56

评论数:0

sqoop问题整理

目前通过Sqoop从Hive的parquet抽数到关系型数据库的时候会报kitesdk找不到文件的错,这是Sqoop的BUG,通过使用hcatlog的方式解决。 ERROR sqoop.Sqoop: Got exception running Sqoop: org.kitesdk.data.Da...

2018-11-06 08:23:39

阅读数:93

评论数:0

Impala的数据刷新

Impala采用了比较奇葩的多个impalad同时提供服务的方式,并且它会由catalogd缓存全部元数据,再通过statestored完成每一次的元数据的更新到impalad节点上,Impala集群会缓存全部的元数据,这种缓存机制就导致通过其他手段更新元数据或者数据对于Impala是无感知的,例...

2018-10-28 14:52:04

阅读数:234

评论数:0

推荐系统——用户画像

写在最开始,本人不是专业做推荐系统的,本文只是整理最近培训的所见所得。学生生涯的时候略微了解些推荐系统的皮毛,工作后暂时还没做这方面的工作,但之后的工作规划会涉及到相关领域知识,另加上本人对算法类培训颇感兴趣,于是参加了近期的培训,自此整理消化下相关知识,聊以慰藉。 目前推荐系统的用户画像都是对...

2018-10-15 22:21:39

阅读数:387

评论数:0

HIVE视图VIEW

特点 1、只有逻辑视图,没有物化视图; 2、视图只能查询,不能Load/Insert/Update/Delete数据; 3、视图在创建时候,只是保存了一份元数据,当查询视图的时候,才开始执行视图对应的那些子查询; 优点 降低查询复杂度 当查询变得长或复杂的时候,通过使用视图将这个查询语...

2018-10-13 19:45:52

阅读数:228

评论数:0

Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.tez.TezTask问题解决

发现这个报错后,就网上查资料喽。目前看下来两种情况比较常见,不排除其他可能。一般排查方式也是查看hive日志,job日志在你的HIVEHOME/conf的hive?log4j.properties下的hive.log.dir={java.io.tmpdir}/user.name所指的目录下,如果日...

2018-10-04 08:42:33

阅读数:306

评论数:0

DbVisualizer连接Hbase(Phoenix驱动)

最近想通过图形界面访问操作hbase,之前hive等都是用的DbVisualizer,所以也想配置一下。首先说明,是利用Phoenix连接hbase,本人的Phoenix和Hbase是已安装并配置好的,所以安装及配置过程在此省略。主要总结下搜索的资料及碰到问题的解决。 驱动JAR包 1、phoen...

2018-09-26 19:41:48

阅读数:301

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭