java 批量导入es数据_Elasticsearch批量导入本地Json文件Java实现

本文介绍了如何将格式化的JSON文件批量导入到Elasticsearch中,包括设计索引和映射、Java程序处理、文件格式化和使用bulk API实现批量插入。还分享了解决打包成jar时遇到的ClassNotFoundException问题。
摘要由CSDN通过智能技术生成

题记

产品开发需要,我们需要将互联网采集的数据存储到ES中,以实现数据的全文检索。

互联网采集的数据,往往格式杂乱,需要先进行数据清洗操作。

而ES支持的入库格式,json格式数据会相对方便些。

本文主要介绍,如何将格式化的Json文件批量插入到ES中。

1、需提前做的工作

1)设计好索引以及Mapping;

Mapping的目的主要是——设定字段名称、字段类型,哪些字段需要进行全文检索等。

2)Java程序中封装好类,和Mapping设定的字段一一对应。

2、批量导入步骤分解

步骤1:本地文件格式化,统一为Json格式。

一个待导入的数据串,存成一个Json文件。

步骤2:放置在统一./data路径下。 目录结构如下示意:

./data

a_01.json

a_02.json

a_03.json

...

a_100.json

步骤3:循环遍历./data文件获取包含绝对路径的文件全名,存入linkedlist中。

步骤4:遍历linkedlist的每个路径,获取Json信息。

步骤5:使用fastjson解析Json,解析成对应设计好的类个各个匹配字段。

步骤6:借助bulk**批量曹操API接口,完成本地文件的导入。

3、核心接口实现

/* **@brief:遍历Json,批量插入ES **@param:空 **@return:空 */

private static void insertBulkIndex() throws Exception {

//Json文件的存储

final String JSONFILEINPUT = ESConfig.es_json_path;

logger.info("path = " + JSONFILEINPUT);

LinkedList curJsonList = FileProcess.getJsonFilePath(JSONFILEINPUT);

logger.info("size = " + curJsonList.size());

for (int i = 0; i < curJsonList.size(); ++i){

//System.out.println(" i = " + i + " " + curJsonList.get(i));

String curJsonPath = curJsonList.get(i);

ImageInfo curImageInfo = JsonParse.GetImageJson(curJsonPath);

//JsonParse.printImageJson(curImageInfo);

if (curImageInfo == null){

continue;

}

//遍历插入操作

InsertIndex (curImageInfo);

}

}

/* **@brief:单条Json插入ES(借助了Jest封装后的API) **@param:空 **@return:空 */

private static void InsertIndex(AgeInfo ageInfo) throws Exception {

JestClient jestClient = JestExa.getJestClient();

JsonParse.PrintImageJson( ageInfo );

Bulk bulk = new Bulk.Builder()

.defaultIndex("age_index")

.defaultType("age_type")

.addAction(Arrays.asList(

new Index.Builder( ageInfo ).build()

)).build();

JestResult result = jestClient.execute(bulk);

if (result.isSucceeded()){

System.out.println("insert success!");

}else{

System.out.println("insert failed");

}

}

最终实现效果为:

java -jar bulk_insert.jar ./data/

即可实现./data下的所有json循环遍历导入ES。

4、使用技术

1)文件遍历

2)Json解析

3)ES批量插入操作

5、遇到的坑

程序导出Jar包时候,生成jar包报错。

由于借助了Jest的源码工程,该工程是由Maven生成的。

生成jar包的时候,会一直提示:

“Java.long.ClassNotFoundException"

初步定位原因:是maven导致,然后了pom.xml,错误依旧。

最终解决方案:重建工程,将代码和依赖的jar包重新导入即可。

后记

死磕ES,有问题欢迎大家提问探讨!

2017年07月23日 15:08 于家中床前

作者:铭毅天下

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值