- 不能用通配符, 不知道干啥用
*/
@Test
public void testFuzzyQuery() {
QueryBuilder queryBuilder = QueryBuilders.fuzzyQuery(“user”, “kimch”);
searchFunction(queryBuilder);
}
/**
- 父或子的文档查询
*/
@Test
public void testChildQuery() {
QueryBuilder queryBuilder = QueryBuilders.hasChildQuery(“sonDoc”, QueryBuilders.termQuery(“name”, “vini”));
searchFunction(queryBuilder);
}
/**
-
moreLikeThisQuery: 实现基于内容推荐, 支持实现一句话相似文章查询
-
{
“more_like_this” : {
“fields” : [“title”, “content”], // 要匹配的字段, 不填默认_all
“like_text” : “text like this one”, // 匹配的文本
}
}
percent_terms_to_match:匹配项(term)的百分比,默认是0.3
min_term_freq:一篇文档中一个词语至少出现次数,小于这个值的词将被忽略,默认是2
max_query_terms:一条查询语句中允许最多查询词语的个数,默认是25
stop_words:设置停止词,匹配时会忽略停止词
min_doc_freq:一个词语最少在多少篇文档中出现,小于这个值的词会将被忽略,默认是无限制
max_doc_freq:一个词语最多在多少篇文档中出现,大于这个值的词会将被忽略,默认是无限制
min_word_len:最小的词语长度,默认是0
max_word_len:最多的词语长度,默认无限制
boost_terms:设置词语权重,默认是1
boost:设置查询权重,默认是1
analyzer:设置使用的分词器,默认是使用该字段指定的分词器
*/
@Test
public void testMoreLikeThisQuery() {
QueryBuilder queryBuilder = QueryBuilders.moreLikeThisQuery(“user”)
.like(“kimchy”);
// .minTermFreq(1) //最少出现的次数
// .maxQueryTerms(12); // 最多允许查询的词语
searchFunction(queryBuilder);
}
/**
- 前缀查询
*/
@Test
public void testPrefixQuery() {
QueryBuilder queryBuilder = QueryBuilders.matchQuery(“user”, “kimchy”);
searchFunction(queryBuilder);
}
/**
- 查询解析查询字符串
*/
@Test
public void testQueryString() {
QueryBuilder queryBuilder = QueryBuilders.queryStringQuery(“+kimchy”);
searchFunction(queryBuilder);
}
/**
- 范围内查询
*/
public void testRangeQuery() {
QueryBuilder queryBuilder = QueryBuilders.rangeQuery(“user”)
.from(“kimchy”)
.to(“wenbronk”)
.includeLower(true) // 包含上界
.includeUpper(true); // 包含下届
searchFunction(queryBuilder);
}
/**
- 跨度查询
*/
@Test
public void testSpanQueries() {
QueryBuilder queryBuilder1 = QueryBuilders.spanFirstQuery(QueryBuilders.spanTermQuery(“name”, “葫芦580娃”), 30000); // Max查询范围的结束位置
QueryBuilder queryBuilder2 = QueryBuilders.spanNearQuery()
.clause(QueryBuilders.spanTermQuery(“name”, “葫芦580娃”)) // Span Term Queries
.clause(QueryBuilders.spanTermQuery(“name”, “葫芦3812娃”))
.clause(QueryBuilders.spanTermQuery(“name”, “葫芦7139娃”))
.slop(30000) // Slop factor
.inOrder(false)
.collectPayloads(false);
// Span Not
QueryBuilder queryBuilder3 = QueryBuilders.spanNotQuery()
.include(QueryBuilders.spanTermQuery(“name”, “葫芦580娃”))
.exclude(QueryBuilders.spanTermQuery(“home”, “山西省太原市2552街道”));
// Span Or
QueryBuilder queryBuilder4 = QueryBuilders.spanOrQuery()
.clause(QueryBuilders.spanTermQuery(“name”, “葫芦580娃”))
.clause(QueryBuilders.spanTermQuery(“name”, “葫芦3812娃”))
.clause(QueryBuilders.spanTermQuery(“name”, “葫芦7139娃”));
// Span Term
QueryBuilder queryBuilder5 = QueryBuilders.spanTermQuery(“name”, “葫芦580娃”);
}
/**
- 测试子查询
*/
@Test
public void testTopChildrenQuery() {
QueryBuilders.hasChildQuery(“tweet”,
QueryBuilders.termQuery(“user”, “kimchy”))
.scoreMode(“max”);
}
/**
-
通配符查询, 支持 *
-
匹配任何字符序列, 包括空
-
避免* 开始, 会检索大量内容造成效率缓慢
*/
@Test
public void testWildCardQuery() {
QueryBuilder queryBuilder = QueryBuilders.wildcardQuery(“user”, “ki*hy”);
searchFunction(queryBuilder);
}
/**
- 嵌套查询, 内嵌文档查询
*/
@Test
public void testNestedQuery() {
QueryBuilder queryBuilder = QueryBuilders.nestedQuery(“location”,
QueryBuilders.boolQuery()
.must(QueryBuilders.matchQuery(“location.lat”, 0.962590433140581))
.must(QueryBuilders.rangeQuery(“location.lon”).lt(36.0000).gt(0.000)))
.scoreMode(“total”);
}
/**
- 测试索引查询
*/
@Test
public void testIndicesQueryBuilder () {
QueryBuilder queryBuilder = QueryBuilders.indicesQuery(
QueryBuilders.termQuery(“user”, “kimchy”), “index1”, “index2”)
.noMatchQuery(QueryBuilders.termQuery(“user”, “kimchy”));
}
/**
-
查询遍历抽取
-
@param queryBuilder
*/
private void searchFunction(QueryBuilder queryBuilder) {
SearchResponse response = client.prepareSearch(“twitter”)
.setSearchType(SearchType.DFS_QUERY_THEN_FETCH)
.setScroll(new TimeValue(60000))
.setQuery(queryBuilder)
.setSize(100).execute().actionGet();
while(true) {
response = client.prepareSearchScroll(response.getScrollId())
.setScroll(new TimeValue(60000)).execute().actionGet();
for (SearchHit hit : response.getHits()) {
Iterator<Entry<String, Object>> iterator = hit.getSource().entrySet().iterator();
while(iterator.hasNext()) {
Entry<String, Object> next = iterator.next();
System.out.println(next.getKey() + ": " + next.getValue());
if(response.getHits().hits().length == 0) {
break;
}
}
}
break;
}
// testResponse(response);
}
/**
-
对response结果的分析
-
@param response
*/
public void testResponse(SearchResponse response) {
// 命中的记录数
long totalHits = response.getHits().totalHits();
for (SearchHit searchHit : response.getHits()) {
// 打分
float score = searchHit.getScore();
// 文章id
int id = Integer.parseInt(searchHit.getSource().get(“id”).toString());
// title
String title = searchHit.getSource().get(“title”).toString();
// 内容
String content = searchHit.getSource().get(“content”).toString();
// 文章更新时间
long updatetime = Long.parseLong(searchHit.getSource().get(“updatetime”).toString());
}
}
/**
- 对结果设置高亮显示
*/
public void testHighLighted() {
/* 5.0 版本后的高亮设置
- client.#().#().highlighter(hBuilder).execute().actionGet();
HighlightBuilder hBuilder = new HighlightBuilder();
hBuilder.preTags(“
”);
hBuilder.postTags(“”);
hBuilder.field(“user”); // 设置高亮显示的字段
*/
// 加入查询中
SearchResponse response = client.prepareSearch(“blog”)
.setQuery(QueryBuilders.matchAllQuery())
.addHighlightedField(“user”) // 添加高亮的字段
.setHighlighterPreTags(“
”)
.setHighlighterPostTags(“”)
.execute().actionGet();
// 遍历结果, 获取高亮片段
SearchHits searchHits = response.getHits();
for(SearchHit hit:searchHits){
System.out.println(“String方式打印文档搜索内容:”);
System.out.println(hit.getSourceAsString());
System.out.println(“Map方式打印高亮内容”);
System.out.println(hit.getHighlightFields());
System.out.println(“遍历高亮集合,打印高亮片段:”);
Text[] text = hit.getHighlightFields().get(“title”).getFragments();
for (Text str : text) {
System.out.println(str.string());
}
}
}
}
高级Api番外篇
https://yq.aliyun.com/articles/70020
https://www.jb51.net/article/114215.htm
https://blog.csdn.net/tianyaleixiaowu/article/details/76149547
https://www.cnblogs.com/rainwang/p/5725214.html
NativeSearchQueryBuilder
可以配合Repository
@NoRepositoryBean
public interface ElasticsearchRepository<T, ID extends Serializable> extends ElasticsearchCrudRepository<T, ID> {
S index(S var1);
Iterable search(QueryBuilder var1);
Page search(QueryBuilder var1, Pageable var2);
Page search(SearchQuery var1);
Page searchSimilar(T var1, String[] var2, Pageable var3);
void refresh();
Class getEntityClass();
}
可以配合ElasticsearchTemplate
百万批量插入
我们经常需要往ElasticSearch中插入大量的测试数据来完成测试搜索,一条一条插肯定是不行的,ES提供了批量插入数据的功能——bulk。
前面讲过JPA的save方法也可以save(List)批量插值,但适用于小数据量,要完成超大数据的插入就要用ES自带的bulk了,可以迅速插入百万级的数据。
public void bulkIndex(List personList) {
int counter = 0;
try {
if (!elasticsearchTemplate.indexExists(PERSON_INDEX_NAME)) {
elasticsearchTemplate.createIndex(PERSON_INDEX_TYPE);
}
List queries = new ArrayList<>();
for (Person person : personList) {
IndexQuery indexQuery = new IndexQuery();
indexQuery.setId(person.getId() + “”);
indexQuery.setObject(person);
indexQuery.setIndexName(PERSON_INDEX_NAME);
indexQuery.setType(PERSON_INDEX_TYPE);
//上面的那几步也可以使用IndexQueryBuilder来构建
//IndexQuery index = new IndexQueryBuilder().withId(person.getId() + “”).withObject(person).build();
queries.add(indexQuery);
if (counter % 500 == 0) {
elasticsearchTemplate.bulkIndex(queries);
queries.clear();
System.out.println("bulkIndex counter : " + counter);
}
counter++;
}
if (queries.size() > 0) {
elasticsearchTemplate.bulkIndex(queries);
}
System.out.println(“bulkIndex completed.”);
} catch (Exception e) {
System.out.println(“IndexerService.bulkIndex e;” + e.getMessage());
throw e;
}
}
高亮查询+摘要
public void shouldReturnHighlightedFieldsForGivenQueryAndFields() {
//given
String documentId = randomNumeric(5);
String actualMessage = “some test message”;
String highlightedMessage = “some test message”;
SampleEntity sampleEntity = SampleEntity.builder().id(documentId)
.message(actualMessage)
.version(System.currentTimeMillis()).build();
IndexQuery indexQuery = getIndexQuery(sampleEntity);
elasticsearchTemplate.index(indexQuery);
elasticsearchTemplate.refresh(SampleEntity.class);
SearchQuery searchQuery = new NativeSearchQueryBuilder()
.withQuery(termQuery(“message”, “test”))
.withHighlightFields(new HighlightBuilder.Field(“message”))
.build();
Page sampleEntities = elasticsearchTemplate.queryForPage(searchQuery, SampleEntity.class, new SearchResultMapper() {
@Override
public AggregatedPage mapResults(SearchResponse response, Class clazz, Pageable pageable) {
List chunk = new ArrayList();
for (SearchHit searchHit : response.getHits()) {
if (response.getHits().getHits().length <= 0) {
return null;
}
SampleEntity user = new SampleEntity();
user.setId(searchHit.getId());
user.setMessage((String) searchHit.getSource().get(“message”));
user.setHighlightedMessage(searchHit.getHighlightFields().get(“message”).fragments()[0].toString());
chunk.add(user);
}
if (chunk.size() > 0) {
return new AggregatedPageImpl((List) chunk);
}
return null;
}
});
assertThat(sampleEntities.getContent().get(0).getHighlightedMessage(), is(highlightedMessage));
}
六、问题总结
======
ES不允许root启动问题
出于安全考虑,默认es不允许以root用户启动
修改bin下脚本 elasticsearch,放开限制
ES_JAVA_OPTS=“-Des.insecure.allow.root=true”
https://blog.csdn.net/napoay/article/details/53237471
远程无法访问9200、9300端口问题,本地可以
可以访问127.0.0.1:9200,但不能访问 公网****IP:9200
修改配置文件 config/elasticsearch.yml
network.host: 0.0.0.0
设成0.0.0.0
让任何人都可以访问。线上服务不要这样设置,要设成具体的 IP。
七、配置详解
======
配置文件2.0版
配置文件位于%ES_HOME%/config/elasticsearch.yml文件中,用Editplus打开它,你便可以进行配置。
所有的配置都可以使用环境变量,例如:
node.rack: ${RACK_ENV_VAR}
表示环境变量中有一个RACK_ENV_VAR变量。
下面列举一下elasticsearch的可配置项:
- 集群名称,默认为elasticsearch:
cluster.name: elasticsearch
- 节点名称,es启动时会自动创建节点名称,但你也可进行配置:
node.name: “Franz Kafka”
- 是否作为主节点,每个节点都可以被配置成为主节点,默认值为true:
node.master: true
- 是否存储数据,即存储索引片段,默认值为true:
node.data: true
master和data同时配置会产生一些奇异的效果:
-
当master为false,而data为true时,会对该节点产生严重负荷;
-
当master为true,而data为false时,该节点作为一个协调者;
-
当master为false,data也为false时,该节点就变成了一个负载均衡器。
你可以通过连接http://localhost:9200/_cluster/health或者http://localhost:9200/_cluster/nodes,或者使用插件http://github.com/lukas-vlcek/bigdesk或http://mobz.github.com/elasticsearch-head来查看集群状态。
- 每个节点都可以定义一些与之关联的通用属性,用于后期集群进行碎片分配时的过滤:
node.rack: rack314
- 默认情况下,多个节点可以在同一个安装路径启动,如果你想让你的es只启动一个节点,可以进行如下设置:
node.max_local_storage_nodes: 1
- 设置一个索引的碎片数量,默认值为5:
index.number_of_shards: 5
- 设置一个索引可被复制的数量,默认值为1:
index.number_of_replicas: 1
当你想要禁用公布式时,你可以进行如下设置:
index.number_of_shards: 1
index.number_of_replicas: 0
这两个属性的设置直接影响集群中索引和搜索操作的执行。假设你有足够的机器来持有碎片和复制品,那么可以按如下规则设置这两个值:
-
拥有更多的碎片可以提升索引执行能力,并允许通过机器分发一个大型的索引;
-
拥有更多的复制器能够提升搜索执行能力以及集群能力。
对于一个索引来说,number_of_shards只能设置一次,而number_of_replicas可以使用索引更新设置API在任何时候被增加或者减少。
ElasticSearch关注加载均衡、迁移、从节点聚集结果等等。可以尝试多种设计来完成这些功能。
可以连接http://localhost:9200/A/_status来检测索引的状态。
- 配置文件所在的位置,即elasticsearch.yml和logging.yml所在的位置:
path.conf: /path/to/conf
- 分配给当前节点的索引数据所在的位置:
path.data: /path/to/data
可以可选择的包含一个以上的位置,使得数据在文件级别跨越位置,这样在创建时就有更多的自由路径,如:
path.data: /path/to/data1,/path/to/data2
- 临时文件位置:
path.work: /path/to/work
- 日志文件所在位置:
path.logs: /path/to/logs
- 插件安装位置:
path.plugins: /path/to/plugins
- 插件托管位置,若列表中的某一个插件未安装,则节点无法启动:
plugin.mandatory: mapper-attachments,lang-groovy
- JVM开始交换时,ElasticSearch表现并不好:你需要保障JVM不进行交换,可以将bootstrap.mlockall设置为true禁止交换:
bootstrap.mlockall: true
请确保ES_MIN_MEM和ES_MAX_MEM的值是一样的,并且能够为ElasticSearch分配足够的内在,并为系统操作保留足够的内存。
- 默认情况下,ElasticSearch使用0.0.0.0地址,并为http传输开启9200-9300端口,为节点到节点的通信开启9300-9400端口,也可以自行设置IP地址:
network.bind_host: 192.168.0.1
- publish_host设置其他节点连接此节点的地址,如果不设置的话,则自动获取,publish_host的地址必须为真实地址:
network.publish_host: 192.168.0.1
- bind_host和publish_host可以一起设置:
network.host: 192.168.0.1
- 可以定制该节点与其他节点交互的端口:
transport.tcp.port: 9300
- 节点间交互时,可以设置是否压缩,转为为不压缩:
transport.tcp.compress: true
- 可以为Http传输监听定制端口:
http.port: 9200
- 设置内容的最大长度:
http.max_content_length: 100mb
- 禁止HTTP
http.enabled: false
- 网关允许在所有集群重启后持有集群状态,集群状态的变更都会被保存下来,当第一次启用集群时,可以从网关中读取到状态,默认网关类型(也是推荐的)是local:
gateway.type: local
- 允许在N个节点启动后恢复过程:
gateway.recover_after_nodes: 1
- 设置初始化恢复过程的超时时间:
gateway.recover_after_time: 5m
- 设置该集群中可存在的节点上限:
gateway.expected_nodes: 2
- 设置一个节点的并发数量,有两种情况,一种是在初始复苏过程中:
cluster.routing.allocation.node_initial_primaries_recoveries: 4
另一种是在添加、删除节点及调整时:
cluster.routing.allocation.node_concurrent_recoveries: 2
- 设置复苏时的吞吐量,默认情况下是无限的:
indices.recovery.max_size_per_sec: 0
- 设置从对等节点恢复片段时打开的流的数量上限:
indices.recovery.concurrent_streams: 5
- 设置一个集群中主节点的数量,当多于三个节点时,该值可在2-4之间:
discovery.zen.minimum_master_nodes: 1
- 设置ping其他节点时的超时时间,网络比较慢时可将该值设大:
discovery.zen.ping.timeout: 3s
http://elasticsearch.org/guide/reference/modules/discovery/zen.html上有更多关于discovery的设置。
- 禁止当前节点发现多个集群节点,默认值为true:
discovery.zen.ping.multicast.enabled: false
小编13年上海交大毕业,曾经在小公司待过,也去过华为、OPPO等大厂,18年进入阿里一直到现在。
深知大多数初中级Java工程师,想要提升技能,往往是自己摸索成长,但自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!
因此收集整理了一份《2024年最新Java开发全套学习资料》送给大家,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友,同时减轻大家的负担。
由于文件比较大,这里只是将部分目录截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频
如果你觉得这些内容对你有帮助,可以添加下面V无偿领取!(备注Java)
点及调整时:
cluster.routing.allocation.node_concurrent_recoveries: 2
- 设置复苏时的吞吐量,默认情况下是无限的:
indices.recovery.max_size_per_sec: 0
- 设置从对等节点恢复片段时打开的流的数量上限:
indices.recovery.concurrent_streams: 5
- 设置一个集群中主节点的数量,当多于三个节点时,该值可在2-4之间:
discovery.zen.minimum_master_nodes: 1
- 设置ping其他节点时的超时时间,网络比较慢时可将该值设大:
discovery.zen.ping.timeout: 3s
http://elasticsearch.org/guide/reference/modules/discovery/zen.html上有更多关于discovery的设置。
- 禁止当前节点发现多个集群节点,默认值为true:
discovery.zen.ping.multicast.enabled: false
小编13年上海交大毕业,曾经在小公司待过,也去过华为、OPPO等大厂,18年进入阿里一直到现在。
深知大多数初中级Java工程师,想要提升技能,往往是自己摸索成长,但自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!
因此收集整理了一份《2024年最新Java开发全套学习资料》送给大家,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友,同时减轻大家的负担。
[外链图片转存中…(img-mrdwG8Wl-1710842272425)]
[外链图片转存中…(img-o4svenfI-1710842272425)]
[外链图片转存中…(img-aNihXcpl-1710842272426)]
由于文件比较大,这里只是将部分目录截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频
如果你觉得这些内容对你有帮助,可以添加下面V无偿领取!(备注Java)
[外链图片转存中…(img-i2hh4jKO-1710842272426)]