在改变了索引(文档)的属性时,原来属性为text,后来改为keyword。所以必须先删除干净索引,重新插入数据,再模糊查询。部分原因就是没有删除索引导致的。可以尝试重新生成索引才可以做到模糊查询的效果。
ES查询
链接: 社区链接 https://elasticsearch.cn/
链接: es官方文档.
创建一个索引
PUT /test
{
"settings" : {
"number_of_shards" : 1,
"number_of_replicas" : 1
}
}
分布式节点建设
更新其replicas状态,但是不能更新shards状态
PUT /test/_settings
{
"settings" : {
"number_of_replicas" : 0
}
}
创建索引,指定id建立索引
PUT /employee/_doc/1
{
"name": "凯杰",
"age": 30
}
指定id全量修改索引
PUT /employee/_doc/1
{
"name": "凯dsfsf32杰",
"age"
}
指定id部分字断修改
POST employee/_update/1
{
"doc" : {
"name" : "new_name"
}
}
指定_create防止重复创建
POST /employee/_create/1/
{
"name": "凯1213132杰",
"age": 30
}
使用搜索全部
GET /employee/_search
获取指定id
GET /employee/_doc/1
主键查询
GET /employee/_doc/1
不指定id建立索引
POST /employee/_doc/
{
"name": "dsfsfsf",
"age": 30
}
删除文档
delete /employee/_doc/1
删除索引
DELETE /employee
结构化创建
PUT /employee/
{
"settings" : {
"number_of_shards" : 1,
"number_of_replicas" : 1
},
"mappings" : {
"properties" : {
"name" : { "type" : "text" },
"age" : { "type" : "integer" }
}
}
}
查询所有
GET /employee/_search
{
"query":{
"match_all": {}
}
}
分页查询
GET /employee/_search
{
"query":{
"match_all": {}
},
"from":1,
"size":1
}
复杂查询
带条件
GET /employee/_search
{
"query":{
"match": {"name":"ES"}
}
}
带排序
GET /employee/_search
{
"query":{
"match": {"name":"ES"}
},
"sort":[
{"age":{"order":"desc"}}
]
}
带聚合
GET /employee/_search
{
"query":{
"match": {"name":"ES"}
},
"sort":[
{"age":{"order":"desc"}}
],
"aggs":{
"group_by_age":{
"terms":{
"field":"age"
}
}
}
}
分词
标准分词 standard
analyze分析过程:字符过滤,字符处理(分词),分词过滤
字符过滤 &过滤掉
字符处理 用标准分词器,以空格和标点符号分割
分词过滤 变小写
先建立索引
PUT /employee/_doc/1
{
"name": "Eating an apple a day & keeps the doctor away",
"age": 30
}
然后搜索
GET /employee/_search
{
"query":{
"match": {"name":"eat"}
}
}
没搜到后使用analyze api查看分析处理结果,可以看到没有分出eat,所以搜不到,改成用english分词器做
GET /employee/_analyze
{
"field":"name",
"text":"Eating an apple a day & keeps the doctor away"
}
english分词
英文分析器的步骤
1.字符过滤 &过滤掉
2.字符处理 以空格和标点符号分割
3.分词过滤 变小写,去掉停用词(the),同义词,词干转化器
重新创建索引
PUT /employee
{
"settings" : {
"number_of_shards" : 1,
"number_of_replicas" : 1
},
"mappings" : {
"properties" : {
"name" : { "type" : "text","analyzer": "english"},
"age" : {"type":"integer"}
}
}
}
在用analyze api,可以看到eat
GET /employee/_analyze
{
"field":"name",
"text":"Eating an apple a day & keeps the doctor away"
}
field类型
text: 被分析索引的字符串类型
keyword: 不能被分析只能被精确匹配的字符串类型
date: 日期时间类型 可以配合format一起使用 {“type”:“date”,“format”:“yyyy-MM-dd”}
数字类型: long,integer,short,double等
boolean类型: true,false
array类型:[“one”,“two”] 等
object类型: json嵌套{“property1”:“value1”,“property2”:“value2”}
ip: ip类型
geo_point: 地理位置类型
地址定义
{
"mappings": {
"_doc": {
"properties": {
"location": {
"type": "geo_point"
}
}
}
}
}
建立索引的方式
"location": {
"lat": 41.12,
"lon": -71.34
}
PUT /movie
{
"settings" : {
"number_of_shards" : 1,
"number_of_replicas" : 1
},
"mappings": {
"properties": {
"title":{"type":"text","analyzer": "english"},
"tagline":{"type":"text","analyzer": "english"},
"release_date":{"type":"date", "format": "8yyyy/MM/dd||yyyy/M/dd||yyyy/MM/d||yyyy/M/d"},
"popularity":{"type":"double"},
"cast":{
"type":"object",
"properties":{
"character":{"type":"text","analyzer":"standard"},
"name":{"type":"text","analyzer":"standard"}
}
},
"overview":{"type":"text","analyzer": "english"}
}
}
}
Query DSL简单实验
1.match查询,按照字段上定义的分词分析后去索引内查询
GET /movie/_search
{
"query":{
"match":{"title":"steve"}
}
}
2.term查询,不进行词的分析,直接去索引查询,及搜索关键词和索引内词的精确匹配
GET /movie/_search
{
"query":{
"match":{"title":"steve zissou"}
}
}
GET /movie/_search
{
"query":{
"term":{"title":"steve zissou"}
}
}
3.match分词后的and和or
使用的是or
GET /movie/_search
{
"query":{
"match":{"title":"basketball with cartoom aliens"},
}
}
使用and
GET /movie/_search
{
"query":{
"match": {
"title": {
"query": "basketball with cartoom aliens",
"operator": "and"
}
}
}
}
4.最小词项匹配
GET /movie/_search
{
"query":{
"match": {
"title": {
"query": "basketball with cartoom aliens",
"operator": "or" ,
"minimum_should_match": 2
}
}
}
}
5.短语查询
GET /movie/_search
{
"query":{
"match_phrase":{"title":"steve zissou"}
}
}
短语前缀查询
GET /movie/_search
{
"query":{
"match_phrase_prefix":{"title":"steve zis"}
}
}
6.多字段查询
GET /movie/_search
{
"query":{
"multi_match":{
"query":"basketball with cartoom aliens",
"field":["title","overview"]
}
}
}
7.wildcard模糊查询,字段类型,定义为keyword,不进行分词
{
"query": {
"bool": {
"must": [
{
"wildcard": {
"country": {
"value": "孟*"
}
}
}
]
}
}
}
fuzzy模糊查询,可以更加模糊的查询,比如查询game,可以用geme查询
场景:在公司日志系统中使用es进行日志的保存和查询,由于需要像mysql中like关键字一样查询日志的某些字段,但是es中的类似like的关键字消耗性能会比较大影响其他程序的使用(架构给我说的),所以不能使用,于是有了这个代替like的方案,性能上不会消耗很多,依然使用ik分词,通过调整最小匹配度来满足功能的实现,下面是es的sql写法
{
"match": {
"字段名": {
"query": "凯美瑞进口",
"operator": "AND",
"minimum_should_match": "100%"
}
}
}
外面两层bool,和must省去了。这样不能百分百模仿出like,但是也基本满足需求了,进口,可以收到,凯美瑞可以搜到,记住如果用了ik分词term就会失效
玩转TMDB高级查询
再次解释评分规则(tf/idf)*tfnorm:
tf:词频 这个document文档包含了多少个这个词,包含越多表明越相关
idf:逆文档频率 包含该词的文档总数目
tfnorm: 根据field长度做归一化,文档内出现频率越高,field越短越相关操作不管是字符与还是或,按照逻辑关系命中后相加得分
GET /movie/_search
{
"explain": true,
"query":{
"match":{"title":"steve"}
}
}
查看数值,tfidf多少分,tfnorm归一化后多少分
多字段查询索引内有query分词后的结果,因为title比overview命中更重要,因此需要加权重
GET /movie/_search
{
"query":{
"multi_match":{
"query":"basketball with cartoom aliens",
"fields":["title^10","overview"],
"tie_break":0.3
}
}
}
8.Bool查询
must:必须都是true
must not: 必须都是false
should:其中有一个为true即可,但true的越多得分越高
GET /movie/_search
{
"query":{
"bool": {
"should": [
{ "match": { "title":"basketball with cartoom aliens"}},
{ "match": { "overview":"basketball with cartoom aliens"}}
]
}
}
}
9.不同的multi_query的type和multi_match得分不一样
因为multi_match有很多种type
best_fields:默认,取得分最高的作为对应的分数,最匹配模式,等同于dismax模式
GET /movie/_search
{
"query":{
"dis_max": {
"queries": [
{ "match": { "title":"basketball with cartoom aliens"}},
{ "match": { "overview":"basketball with cartoom aliens"}}
]
}
}
}
然后使用explan看下 ((title:steve title:job) | (overview:steve overview:job)),打分规则
GET /movie/_validate/query?explain
{
//"explain": true,
"query":{
"multi_match":{
"query":"steve job",
"fields":["title","overview"],
"operator": "or",
"type":"best_fields"
}
}
}
以字段为单位分别计算分词的分数,然后取最好的一个,适用于最优字段匹配。
将其他因素以0.3的倍数考虑进去
GET /movie/_search
{
"query":{
"dis_max": {
"queries": [
{ "match": { "title":"basketball with cartoom aliens"}},
{ "match": { "overview":"basketball with cartoom aliens"}}
],
"tie_breaker": 0.3
}
}
}
most_fields:取命中的分值相加作为分数,同should match模式,加权共同影响模式
然后使用explain看下 ((title:steve title:job) | (overview:steve overview:job))~1.0,打分规则
GET /movie/_validate/query?explain
{
//"explain": true,
"query":{
"multi_match":{
"query":"steve job",
"fields":["title","overview"],
"operator": "or",
"type":"most_fields"
}
}
}
以字段为单位分别计算分词的分数,然后加在一起,适用于都有影响的匹配
cross_fields:以分词为单位计算栏位总分
然后使用explain看下 blended(terms:[title:steve, overview:steve]) blended(terms:[title:job, overview:job]),打分规则
GET /movie/_validate/query?explain
{
//"explain": true,
"query":{
"multi_match":{
"query":"steve job",
"fields":["title","overview"],
"operator": "or",
"type":"most_fields"
}
}
}
以词为单位,分别用词去不同的字段内取内容,拿高的分数后与其他词的分数相加,适用于词导向的匹配
GET /forum/article/_search
{
"query": {
"multi_match": {
"query": "Peter Smith",
"type": "cross_fields",
"operator": "or",
"fields": ["author_first_name", "author_last_name"]
}
}
}
//要求Peter必须在author_first_name或author_last_name中出现
//要求Smith必须在author_first_name或author_last_name中出现
//原来most_fiels,可能像Smith //Williams也可能会出现,因为most_fields要求只是任何一个field匹配了就可以,匹配的field越多,分数越高
GET /movie/_search
{
"explain": true,
"query":{
"multi_match":{
"query":"steve job",
"fields":["title","overview"],
"operator": "or",
"type":"cross_fields"
}
}
}
看一下不同的评分规则
10.query string
方便的利用AND(+) OR(|) NOT(-)
GET /movie/_search
{
"query":{
"query_string":{
"fields":["title"],
"query":"steve AND jobs"
}
}
}
11.过滤查询
filter过滤查询
单条件过滤
GET /movie/_search
{
"query":{
"bool":{
"filter":{
"term":{"title":"steve"}
}
}
}
}
多条件过滤
GET /movie/_search
{
"query":{
"bool":{
"filter":[
{"term":{"title":"steve"}},
{"term":{"cast.name":"gaspard"}},
{"range": { "release_date": { "lte": "2015/01/01" }}},
{"range": { "popularity": { "gte": "25" }}}
]
}
},
"sort":[
{"popularity":{"order":"desc"}}
]
}
带match打分的的filter
GET /movie/_search
{
"query":{
"bool":{
"must": [
{ "match": { "title": "Search" }},
{ "match": { "tagline": "Elasticsearch" }}
],
"filter":[
{"term":{"title":"steve"}},
{"term":{"cast.name":"gaspard"}},
{"range": { "release_date": { "lte": "2015/01/01" }}},
{"range": { "popularity": { "gte": "25" }}}
]
}
}
}
返回0结果
GET /movie/_search
{
"query":{
"bool":{
"should": [
{ "match": { "title": "Search" }},
{ "match": { "tagline": "Elasticsearch" }}
],
"filter":[
{"term":{"title":"steve"}},
{"term":{"cast.name":"gaspard"}},
{"range": { "release_date": { "lte": "2015/01/01" }}},
{"range": { "popularity": { "gte": "25" }}}
]
}
}
}
有结果,但是返回score为0,因为bool中若有filter的话,即便should都不满足,只是返回为0分而已
修改为
GET /movie/_search
{
"query":{
"bool":{
"should": [
{ "match": { "title": "life" }},
{ "match": { "tagline": "Elasticsearch" }}
],
"filter":[
{"term":{"title":"steve"}},
{"term":{"cast.name":"gaspard"}},
{"range": { "release_date": { "lte": "2015/01/01" }}},
{"range": { "popularity": { "gte": "25" }}}
]
}
}
}
可以看到分数
优秀的搜索引擎必备
查全率:正确的结果有n个,查询出来正确的有m 则 m/n
查准率:查出的n个文档有m个正确,则m/n
两者都需要提高,但一般不可兼得,可以通过调整排序位置,将正确的结果排在上面以提高用户体验
function score自定义打分
GET /movie/_search
{
"query":{
"function_score": {
//原始查询得到oldscore
"query": {
"multi_match":{
"query":"steve job",
"fields":["title","overview"],
"operator": "or",
"type":"most_fields"
}
},
"functions": [
{"field_value_factor": {
"field": "popularity", //对应要处理的字段
"modifier": "log2p", //将字段值+2后,计算对数
"factor": 10 //字段预处理*10
}
}
],
"score_mode": "sum", //不同的field value之间的得分相加
"boost_mode": "sum" //最后在与old value相加
}
}
}
IK中文分词器
1.IK分词器是目前用的最广泛的中文分词器
2.elasticsearch安装ik plugin
bin/elasticsearch-plugin install https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v7.3.0/elasticsearch-analysis-ik-7.3.0.zip
3个节点都安装,检查plugins目录下有对应文件夹则表示安装
3.启动es后运行命令检查
对比
标准分词
GET _analyze?pretty
{
"analyzer": "standard",
"text":"中华人名共和国国歌"
}
智能分词
GET _analyze?pretty
{
"analyzer": "ik_smart",
"text":"中华人名共和国国歌"
}
最大化分词
GET _analyze?pretty
{
"analyzer": "ik_max_word",
"text":"中华人名共和国国歌"
}
最佳实践:索引时使用maxword,查询时使用smartword
4.门店全量索引构建,先定义索引结构
PUT /shop?include_type_name=false
{
"settings" : {
"number_of_shards" : 1,
"number_of_replicas" : 1
},
"mappings": {
"properties": {
"id":{"type":"integer"},
"name":{"type":"text","analyzer": "ik_max_word","search_analyzer":"ik_smart"},
"tags":{"type":"text","analyzer": "whitespace","fielddata":true},
"location":{"type":"geo_point"},
"remark_score":{"type":"double"},
"price_per_man":{"type":"integer"},
"category_id":{"type":"integer"},
"category_name":{"type":"keyword"},
"seller_id":{"type":"integer"},
"seller_remark_score":{"type":"double"},
"seller_disabled_flag":{"type":"integer"}
}
}
}
logstash-input-jdbc索引构建
使用logstash-input-jdbc 同步建立索引
先下载logstash
https://artifacts.elastic.co/downloads/logstash/logstash-7.3.0.zip
解压后安装logstash-input-jdbc插件
bin/logstash-plugin install logstash-input-jdbc
bin目录下新建mysql
cp mysql-connector-java-5.1.34.jar /Users/hzllb/Documents/java/logstash/logstash-7.3.0/bin/mysql/新建索引的方式使用从mysql中查询select语句,然后通过logstash-input-jdbc的配置文件方式导入elasticsearch
首先配置jdbc.conf
vim jdbc.conf
input {
stdin {
}
jdbc {
# mysql 数据库链接,test为数据库名
jdbc_connection_string => "jdbc:mysql://127.0.0.1:3306/dianping"
# 用户名和密码
jdbc_user => "root"
jdbc_password => "root"
# 驱动
jdbc_driver_library => "/Users/hzllb/Documents/java/logstash/logstash-7.3.0/bin/mysql/mysql-connector-java-5.1.34.jar"
# 驱动类名
jdbc_driver_class => "com.mysql.jdbc.Driver"
jdbc_paging_enabled => "true"
jdbc_page_size => "50000"
# 执行的sql 文件路径+名称
statement_filepath => "/Users/hzllb/Documents/java/logstash/logstash-7.3.0/bin/mysql/jdbc.sql"
# 设置监听间隔 各字段含义(由左至右)分、时、天、月、年,全部为*默认含义为每分钟都更新
schedule => "* * * * *"
}
}
output {
elasticsearch {
# ES的IP地址及端口
hosts => ["localhost:9200"]
# 索引名称
index => "shop"
document_type => "_doc"
# 自增ID 需要关联的数据库中有有一个id字段,对应索引的id号
document_id => "%{id}"
}
stdout {
# JSON格式输出
codec => json_lines
}
}
然后编辑jdbc.sql加入全量查询的sql
vim jdbc.sql
select a.id,a.name,a.tags,concat(a.latitude,‘,’,a.longitude) as location,a.remark_score,a.price_per_man,a.category_id,b.name as category_name,a.seller_id,c.remark_score as seller_remark_score,c.disabled_flag as seller_disabled_flag from shop a inner join category b on a.category_id = b.id inner join seller c on c.id = a.seller_id
全量导入索引完成后我们尝试使用时间戳纬度做增量导入,即logstatsh-input-jdbc每隔一定时间执行某条sql,在对应sql内加入updated_at的时间范围,做增量数据捞取后更新到es中
用时间增量
input {
stdin {
}
jdbc {
#需要加入时间戳
jdbc_default_timezone => "Asia/Shanghai"
# mysql 数据库链接,test为数据库名
jdbc_connection_string => "jdbc:mysql://127.0.0.1:3306/dianping"
# 用户名和密码
jdbc_user => "root"
jdbc_password => "root"
# 驱动
jdbc_driver_library => "/Users/hzllb/Documents/java/logstash/logstash-6.8.1/bin/mysql/mysql-connector-java-5.1.34.jar"
# 驱动类名
jdbc_driver_class => "com.mysql.jdbc.Driver"
jdbc_paging_enabled => "true"
jdbc_page_size => "50000"
# 执行的sql 文件路径+名称
last_run_metadata_path => "/Users/hzllb/Documents/java/logstash/logstash-6.8.1/bin/mysql/last_value_meta"
statement_filepath => "/Users/hzllb/Documents/java/logstash/logstash-6.8.1/bin/mysql/jdbc.sql"
# 设置监听间隔 各字段含义(由左至右)分、时、天、月、年,全部为*默认含义为每分钟都更新
schedule => "* * * * *"
}
}
output {
elasticsearch {
# ES的IP地址及端口
hosts => ["localhost:9200"]
# 索引名称
index => "shop"
document_type => "_doc"
# 自增ID 需要关联的数据库中有有一个id字段,对应索引的id号
document_id => "%{id}"
}
stdout {
# JSON格式输出
codec => json_lines
}
}
//增量sql为
select a.id,a.name,a.tags,concat(a.latitude,‘,’,a.longitude) as location,a.remark_score,a.price_per_man,a.category_id,b.name as category_name,a.seller_id,c.remark_score as seller_remark_score,c.disabled_flag as seller_disabled_flag from shop a inner join category b on a.category_id = b.id inner join seller c on c.id = a.seller_id where a.updated_at > :sql_last_value or b.updated_at > :sql_last_value or c.updated_at > :sql_last_value
同时需要新增一个文件用于记录当次执行的updated_at时间
/Users/hzllb/Documents/java/logstash/logstash-6.8.1/bin/mysql/last_value_meta
加入开始时间,例如2019-10-01 10:00:00
启动
./logstash -f mysql/jdbc.conf