大数据量清洗需考虑数据分布情况,防止一次查过多的数据导致GC,考虑时间分片,数据分页处理大数据查询还需考虑过滤字段是否走索引ES有TCP和HTTP支持,库访问。分片数的选择,一个索引200个字段,一个document 6kb,50G能存870w左右,需按照业务的增长来选择。分词器的选择 ik对自定义词库支持较好,ansj对智能分词,人名、地名等特殊词较好。