前言
有这么一个场景,mysql数据实时同步到hive,然后impala查询hive
使用streamset 我将上述的流程设计完毕,但是我们必须要考虑的是hive的更新与删除,这如何处理?删除可能还有办法处理,可以使用spark程序处理,但是数据更新呢?很是为难,然后有人给我推荐使用kudu ,利用impala查询kudu。
问题
说干就干我开始在cdh里添加kudu
但是我遇到了说我的服务器cpu指令版本不够,查了一下自己服务器的cpu信息
确实是什么sse2.x,kudu要求SSE4.2
然后找了一个服务器单节点部署了kudu
心心念这下应该可以搞定了
将kudu与impala集成使用,在impala上创建了一个kudu表
create table cdc_test (
id int,
name String,
primary key(id)
)
PARTITION BY HASH PARTITIONS 3
STORED AS KUDU;
满心欢喜的开始查询可是又出现这个问题
The CPU on this system (QEMU Virtual CPU version (cpu64-rhel6)) does not support the SSE4.2 instruction
set which is required for running Kudu. If you are running inside a VM, you may need to enable SSE4.2
pass-through.
谁可以帮助我?求方法…
刚刚自己解决了,我在另外一个支持kudu的机器上又部署了impala,这样就可以用impala查询kudu了