elasticSearch/elasticSearch-sql初探

刚刚接触ES,许多问题可能不是很准确,请谅解。

一、概念的东西就不啰嗦了。就说说我遇到的问题吧

1.错误信息:Exception in thread "main" NoNodeAvailableException[None of theconfigured nodes are available:

解决方法:增加settings设置(红色标记)。

   Settingssettings= Settings.settingsBuilder()

              .put("cluster.name","elasticSearchDemo").build();

Client client = TransportClient.builder().addPlugin(DeleteByQueryPlugin.class).settings(settings).build().addTransportAddresses(address1,address2);

2.问题2->Term查询不到数据:创建索引的时候没有说明不使用分词器(默认使用分词器),当用Term查询时,原来数据中的大写转换成小写,可以在测试分词器中测试一下。如果仍然用大写字母查询,导致查询不到数据。如{"term":{"gender":"F"}},必须写成{"term":{"gender":"f"}}

3问题3 注意各种默认值,比如ES-sql中默认limit为200,term中size默认为10.例子如下:

   SearchResponseresponse= client.prepareSearch(TEST_INDEX)

            .setSearchType(SearchType.QUERY_THEN_FETCH)

            .setQuery(queryBuilder)

   .addAggregation(AggregationBuilders.terms("ageAgg").field("age").size(100)

            .subAggregation(AggregationBuilders.stats("ageStat").field("age")))

      .execute().actionGet();

其中按照age分组统计,其中size默认为10(红色部分).不确定可以写size(0),代码自动写为maxInt。

3.问题.(脑裂)

今天集群中的健康值为yellow,查看日志报错为网络异常。错误的时间已经过去10个小时,现在网络也没有异常。刚开始的时候一直怀疑网络故障,问题一直找不到突破口,分别访问没有在集群的节点,也是没有问题的。网上搜索说是由于ping.timeout默认为3秒,如果超时就会出现多个集群的现象。联想到本系统中的网络异常,发现为两个集群。可查看每个节点的集群状态的primary属性。

修改方式:

discovery.zen.ping.timeout: 60s

discovery.zen.minimum_master_nodes:3

4. elasticSearch-sql查询语句

         4.1groupby语句其中group by之后的字段顺序重要。Limit属性为默认group by之后的第一个字段,如果没有limit默认为elasticSearch-sql自定义的200。源码在AggregationQueryAction中的explain()方法(((TermsBuilder) lastAgg).size(select.getRowCount());[大概在60L,version:2.3])

Group by 之后的字段默认为全部查询源码在源码在AggregationQueryAction中的explain()方法(((TermsBuilder) subAgg).size(0);[大概在94L,version:2.3])4. elasticSearch-sql查询语句

         4.1groupby语句其中group by之后的字段顺序重要。Limit属性为默认group by之后的第一个字段,如果没有limit默认为elasticSearch-sql自定义的200。源码在AggregationQueryAction中的explain()方法(((TermsBuilder) lastAgg).size(select.getRowCount());[大概在60L,version:2.3])

Group by 之后的字段默认为全部查询源码在源码在AggregationQueryAction中的explain()方法(((TermsBuilder) subAgg).size(0);[大概在94L,version:2.3])

5.ES-sql中的like(%)查询(包括其他特殊字符)

es中的默认百分号(%)查询,如果查询结果 的文本中有百分号,ES默认like中是没有办法查询的。原因就是源码中会替换所有的百分号。代码在org.nlpcn.es4sql.query.maker.Maker类中[大概在143L,version:2.3])源码如下:

case LIKE:
case NLIKE:
String queryStr = ((String) value);
queryStr = queryStr.replace('%', '*').replace('_', '?');
queryStr = queryStr.replace("&PERCENT","%").replace("&UNDERSCORE","_");
break;

其他的特殊字符可采用QueryParser(lucene包中的方法)的静态方法escape(String s)其实现原理是转义,转义字符为\\

注意:查询字段是不采用分词的,否则可能会过滤掉特殊字符,导致查询不到。

6.ES-sql查询字段中采用不分词,且其中有\(斜杠),采用es-sql查询时查询不到

原因是com.alibaba.druid.sql.parser.Lexer类过滤了\(斜杠)。具体实现Lexer类中的scanAlias()方法。大概在641L。(druid版本 1.0.15)。

解决方法:1.采用JSON。2.使用like查询(?替换\)

二elasticSearch-sql 查询源码分析:

public static void test3() throws Exception {
		String sql = "select * from elasticsearch-sql_test_index";
		//其中采用的是阿里的druid框架,
		//其中ElasticLexer和ElasticSqlExprParser都是对druid中的MySql的进行了扩展
		SQLExprParser parser = new ElasticSqlExprParser(sql);
		SQLExpr expr = parser.expr();
		if (parser.getLexer().token() != Token.EOF) {
			throw new ParserException("illegal sql expr : " + sql);
		}
		SQLQueryExpr queryExpr=(SQLQueryExpr) expr;
		//通过抽象语法树,封装成自定义的Select,包含了select、from、where group、limit等
		Select select = new SqlParser().parseSelect(queryExpr);
		
		 AggregationQueryAction action;
		 DefaultQueryAction queryAction = null;
		if (select.isAgg) {
			//包含计算的的排序分组的
			//request.setSearchType(SearchType.DEFAULT);
            action= new AggregationQueryAction(client, select);
        } else {
        	//封装成自己的Select对象
        	 queryAction = new DefaultQueryAction(client, select);
        }
		// 把属性封装在SearchRequestBuilder(client.prepareSearch()获取的即ES中获取的方法)对象中
		// 然后装饰了一下SearchRequestBuilder为自定义的SqlElasticSearchRequestBuilder
		SqlElasticSearchRequestBuilder requestBuilder = queryAction.explain();
		//之后就是对ES的操作
		SearchResponse response=(SearchResponse) requestBuilder.get();
		SearchHit[] hists = response.getHits().getHits();
		System.out.println(hists.length);
		for(SearchHit hit:hists){
			System.out.println(hit.getSourceAsString());
		}
	}


  • 3
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 9
    评论
好的,您可以按照以下的方式来编写docker-compose.yml文件: ``` version: '3.7' services: jobmanager: image: flink:1.17.0 command: jobmanager ports: - "8081:8081" taskmanager: image: flink:1.17.0 command: taskmanager depends_on: - jobmanager links: - jobmanager:jobmanager environment: - JOB_MANAGER_RPC_ADDRESS=jobmanager - FLINK_TASK_MANAGER_MEMORY_PROCESS_SIZE=1024m elasticsearch: image: docker.elastic.co/elasticsearch/elasticsearch:7.10.2 environment: - discovery.type=single-node ports: - "9200:9200" mysql: image: mysql:8.0 environment: - MYSQL_ROOT_PASSWORD=<your_password> - MYSQL_USER=<your_user> - MYSQL_PASSWORD=<your_password> - MYSQL_DATABASE=<your_database> ports: - "3306:3306" postgres: image: postgres:13.1 environment: - POSTGRES_USER=<your_user> - POSTGRES_PASSWORD=<your_password> - POSTGRES_DB=<your_database> ports: - "5432:5432" flink-job: image: flink:1.17.0 volumes: - ./flink-conf.yaml:/opt/flink/conf/flink-conf.yaml - ./lib/flink-sql-connector-elasticsearch7-3.0.1-1.17.jar:/opt/flink/lib/flink-sql-connector-elasticsearch7-3.0.1-1.17.jar - ./lib/flink-sql-connector-mysql-cdc-2.3.0.jar:/opt/flink/lib/flink-sql-connector-mysql-cdc-2.3.0.jar - ./lib/flink-sql-connector-postgres-cdc-2.3.0.jar:/opt/flink/lib/flink-sql-connector-postgres-cdc-2.3.0.jar command: jobmanager depends_on: - jobmanager - elasticsearch - mysql - postgres links: - elasticsearch:elasticsearch - mysql:mysql - postgres:postgres environment: - JOB_MANAGER_RPC_ADDRESS=jobmanager - FLINK_TM_HEAP_SIZE=1024m - FLINK_PROPERTIES= - FLINK_ENV_JAVA_OPTS= - FLINK_ENV_JAVA_TOOL_OPTIONS= - FLINK_CONF_DIR=/opt/flink/conf - FLINK_LIB_DIR=/opt/flink/lib - FLINK_PLUGINS_DIR=/opt/flink/plugins - FLINK_OPT_DIR=/opt/flink/opt - FLINK_LOG_DIR=/opt/flink/log - FLINK_HOME=/opt/flink volumes: - ./job.jar:/opt/flink/job.jar - ./flink-conf.yaml:/opt/flink/conf/flink-conf.yaml ``` 其中需要注意的是: 1. 在 `flink-job` 服务中,我们使用了 `volumes` 来挂载 `flink-conf.yaml` 和三个依赖的jar包到容器的 `/opt/flink/conf` 和 `/opt/flink/lib` 目录中。 2. 我们在 `flink-job` 服务的环境变量中设置了 `FLINK_PROPERTIES`,因为 Flink 在启动时会读取这个环境变量中的配置信息。 3. 我们在 `flink-job` 服务的环境变量中设置了 `FLINK_LIB_DIR`,这是因为 Flink 在启动时会从这个目录中加载依赖的jar包。 4. 我们在 `flink-job` 服务的环境变量中设置了 `FLINK_CONF_DIR`,这是因为 Flink 在启动时会读取这个目录中的配置文件。 5. 我们在 `flink-job` 服务的环境变量中设置了 `FLINK_HOME`,这是因为 Flink 在启动时需要知道它的安装路径。 上述的docker-compose.yml文件可以满足您的要求,在启动容器后,您可以使用以下的命令来进入到flink-job容器中: ``` docker-compose run flink-job /bin/bash ``` 然后,您可以在容器中运行Flink任务了。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 9
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值