- 博客(6)
- 资源 (63)
- 收藏
- 关注
原创 Impala实时刷新同步Hive元数据
背景通过HIVE对数据进行操作或更新元数据,Impala是无感知的,官方提供了两种手动刷新的方式,分别是INVALIDATE METADATA和REFRESH操作。但是使用起来相当不方便,针对此问题,想到两种简单的应对方案。方案一如果ETL处理都是通过脚本执行,那么可以考虑在脚本中添加手动刷新的命令,即某个表的数据已通过脚本处理完成,脚本的最后调用impala刷新一下这个表。这种方式无法处理...
2018-11-30 08:12:53 11197 5
原创 Impala 代替 hive COLLECT_SET函数的方式
背景之前是在HIVE上开发,GROUP BY 某些字段后,其他字段使用COLLECT_SET(ITEM)[0]的方式取相同字段值中的一个,而在Impala上没有COLLECT_SET函数。方案使用GROUP_CONCAT函数+SPLIT_PART函数替代## IMPALASELECT SCORE,SPLIT_PART(GROUP_CONCAT(NAME),',',1) FROM TEST...
2018-11-15 09:25:00 6431
原创 Hadoop dr.who问题
背景昨天在生产环境偶然发现,yarn的一些日志访问不了,报如下错误 User [dr.who] is not authorized to view the logs for application;然后发现hdfs管理界面有些文件目录页进不去,登录即右上角为logged in as dr.who。然后到网上查找资料。原因Resource Manager UI的默认用户dr.who权限不正确...
2018-11-14 08:28:56 8473
原创 Impala权限控制
开头Impala因为是Cloudera出的,所以官方文档说明里只写了使用自家的Sentry方式进行权限管理,而对于Hortonworks家的Ranger只字未提,网上都是说可以通过特殊方案集成到Ranger上,但是没有找到具体方案,在此也提不了了。首先,Sentry 的使用有两种方式,一是基于文件的存储方式(SimpleFileProviderBackend),一是基于数据库的存储方式(Sim...
2018-11-08 21:08:16 4373
原创 Sentry与Ranger
Sentry:RBAC(role-based acess control)基于角色的管理,比如Cloudera用的是Sentry,华为的FusionInsight也采用类似的机制。即:通过创建角色,将每个组件的权限授予给此角色。然后在用户中添加此角色,即用户具备此角色访问组件的权限(组也类似)Ranger: PBAC(policy-based acess control)基于策略的管理,比如H...
2018-11-07 22:15:06 1496
原创 Sqoop同步hive的parquet数据问题
目前通过Sqoop从Hive的parquet抽数到关系型数据库的时候会报kitesdk找不到文件的错,这是Sqoop的BUG,通过使用hcatlog的方式解决。ERROR sqoop.Sqoop: Got exception running Sqoop: org.kitesdk.data.DatasetNotFoundException: Descriptor location does not...
2018-11-06 08:23:39 2994
Programming Computer Vision with Python
2015-05-28
颜色迁移算法
2015-05-26
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人