image
背景:
项目隶属于用户画像服务,为了更好的支持前端查询服务,决定将原有的HBase数据源切换成Elasticsearch(以下简称ES),从k-v型数据库切到nosql。本以为是个比较简单的任务,做起来才发现有各种问题,简单记录下。
本文将从数据写入,索引设置两方面简述遇到的一些问题。
基本集群情况如下:三台ES,32G内存,其中16G内存分给ES,单台500G SSD。
数据写入
hive to ES
有专门的工具包,elasticsearch-hadoop-6.3.2.jar,需要注意的是后边的版本号需要和ES的版本一致。将hive表建成外部表,向外部表中写入数据即可。基本语句:
STORED BY 'org.elasticsearch.hadoop.hive.EsStorageHandler'
TBLPROPERTIES(
'es.nodes' = '192.168.0.1',
'es.port'='9200',
'es.resource' = 'user_profile/user_profile',//表示ES的index/type
'es.mapping.id' = 'user_id',//指定_id的取值
'es.mapping.names'