12.term_vectors查看

最新推荐文章于 2023-10-15 15:30:23 发布

夜月行者

最新推荐文章于 2023-10-15 15:30:23 发布

阅读量9.9k

点赞数

分类专栏： # doc管理API 文章标签： elasticsearch

本文链接：https://blog.csdn.net/u013200380/article/details/109164914

版权

doc管理API 专栏收录该内容

15 篇文章 2 订阅

订阅专栏

文章目录

- 1. Term Vectors 简介

1. Term Vectors 简介

Term Vectors（term向量）
返回特定文档field中的term的信息和统计信息。文档可以存储在索引中或由request提供。term向量请求的结果默认为实时的，不是近实时的。这可以通过将realtime参数设置为false来更改为非实时的。

GET /twitter/_termvectors/1

也可以使用url中的参数指定检索信息的field：

GET /twitter/_termvectors/1?fields=message

或通过在请求主体中添加请求的field（参见下面的示例）。也可以使用通配符指定field，类似于多匹配查询

注意

请注意/_termvector的使用方式在2.0中已废弃，请使用_termvectors替代。

1. 返回值

请求可以得到三种类型的值：term信息，term统计和field统计。默认情况下，所有term信息与field统计信息都会被返回，但不包含term统计信息。

term信息

在field中的词频（总是返回）
term位置（positions: true）
开始与结束的offset（offsets: true）
term payload信息（payloads: true），会使用base64编码

如果请求的信息没有存储在索引中，会尝试进行即时计算。另外，也可以基于请求方提供的doc计算term向量的信息。
也就是说mapping中不需要单独定义term_vector 的mapping param ,但是使用的时候有时候表现有些奇怪。
比如我使用

GET seats/_termvectors/8092

可能无法召回vector信息，但是增加fields字段参数，比如下面，就可以获取到vector信息了

GET seats/_termvectors/8092?fields=actors

注意

offset 的start和end 是跟军UTF-16编码来计算的。如果要使用这些offset来从原始文本中获取term，则应确保使用UTF-16对正在使用的子字符串进行编码。

term统计
设置term_statistics为true（默认为false）将返回：

总词频（所有文件中的term频率）tf
文档频率（包含term的文档数）df

默认情况下这些值不返回,因为term统计数据会严重影响性能。

field统计
将field_statistics设置为false（默认值为true）将省略：

文档数（包含此field的文档数）
文档频率的总和（本field中所有term的文档频率的总和）
词频的总和（该field中每个term的总词频的总和）

2. term过滤

可以根据term向量的tf-idf特性来对term向量进行过滤，这个有助于筛选比较有用的特诊向量。
可以使用以下参数

max_num_terms: 每个field必须返回的最大term数。默认为25。
min_term_freq: 在源文档中忽略少于此频率的单词。默认为1。
max_term_freq: 在源文档中忽略超过此频率的单词。默认为无界。
min_doc_freq: 忽略文档频率少于此参数的term。默认为1。
max_doc_freq: 忽略文档频率大于此参数的term。默认为无界。
min_word_length: 字词长度低于此参数的将被忽略。默认为0。
max_word_length: 字词长度大于此参数的将被忽略。默认为无界（0）。

term和field统计信息不是精准的。删除的doc不会被统计。而且仅针对请求文档所在的分片检索信息。因此，term和field的统计信息只是作为相对的参考信息，准确的数字没有意义，。默认情况下，当请求的时候携带doc文档的时候，会随机选择一个碎片来获取统计数据。有routing的话仅使用路由来命中特定的分片。

示例：返回存储term向量
首先，我们创建一个存储term向量、有payload等的索引：

PUT /twitter
{ "mappings": {
    "properties": {
      "text": {
        "type": "text",
        "term_vector": "with_positions_offsets_payloads",
        "store" : true,
        "analyzer" : "fulltext_analyzer"
       },
       "fullname": {
        "type": "text",
        "term_vector": "with_positions_offsets_payloads",
        "analyzer" : "fulltext_analyzer"
      }
    }
  },
  "settings" : {
    "index" : {
      "number_of_shards" : 1,
      "number_of_replicas" : 0
    },
    "analysis": {
      "analyzer": {
        "fulltext_analyzer": {
          "type": "custom",
          "tokenizer": "whitespace",
          "filter": [
            "lowercase",
            "type_as_payload"
          ]
        }
      }
    }
  }
}

然后，我们添加一些文档：

PUT /twitter/_doc/1
{
  "fullname" : "John Doe",
  "text" : "twitter test test test "
}

PUT /twitter/_doc/2
{
  "fullname" : "Jane Doe",
  "text" : "Another twitter test ..."
}

以下请求返回文档1（John Doe）中fieldtext的所有信息和统计信息：

GET /twitter/_termvectors/1
{
  "fields" : ["text"],
  "offsets" : true,
  "payloads" : true,
  "positions" : true,
  "term_statistics" : true,
  "field_statistics" : true
}

返回

{
    "_id": "1",
    "_index": "twitter",
    "_type": "_doc",
    "_version": 1,
    "found": true,
    "took": 6,
    "term_vectors": {
        "text": {
            "field_statistics": {
                "doc_count": 2,
                "sum_doc_freq": 6,
                "sum_ttf": 8
            },
            "terms": {
                "test": {
                    "doc_freq": 2,
                    "term_freq": 3,
                    "tokens": [
                        {
                            "end_offset": 12,
                            "payload": "d29yZA==",
                            "position": 1,
                            "start_offset": 8
                        },
                        {
                            "end_offset": 17,
                            "payload": "d29yZA==",
                            "position": 2,
                            "start_offset": 13
                        },
                        {
                            "end_offset": 22,
                            "payload": "d29yZA==",
                            "position": 3,
                            "start_offset": 18
                        }
                    ],
                    "ttf": 4
                },
                "twitter": {
                    "doc_freq": 2,
                    "term_freq": 1,
                    "tokens": [
                        {
                            "end_offset": 7,
                            "payload": "d29yZA==",
                            "position": 0,
                            "start_offset": 0
                        }
                    ],
                    "ttf": 2
                }
            }
        }
    }
}

3. 示例：自动生成term向量

未明确存储在索引中的term向量将自动计算。以下请求返回文档1中field的所有信息和统计信息，即使term尚未明确存储在索引中。请注意，对于text这个field，因为设置mapping的时候指定了term_vector mapping param，所以这个字段的termvector不会重新生成。

GET /twitter/_termvectors/1
{
  "fields" : ["text", "some_field_without_term_vectors"],
  "offsets" : true,
  "positions" : true,
  "term_statistics" : true,
  "field_statistics" : true
}

some_field_without_term_vectors 代表了没有term_vectors属性的字段

4. 示例：request 中传入doc

还可以为request中的doc生成term向量，也就是生成索引中不存在的文档。例如，以下请求将返回与示例1中相同的结果。所使用的映射由索引和类型确定。

如果动态映射打开（默认），则不在原始映射中的文档field将被动态创建。

GET /twitter/_termvectors
{
  "doc" : {
    "fullname" : "John Doe",
    "text" : "twitter test test test"
  }
}

5. Per-field 分析器

另外，可以通过使用per_field_analyzer参数来提供不同于当前的分析器。这对于以任何方式生成term向量是有用的，特别是在使用request中的doc时。当为已经存储的term向量提供分析器时，将重新生成项向量。

GET /twitter/_termvectors
{
  "doc" : {
    "fullname" : "John Doe",
    "text" : "twitter test test test"
  },
  "fields": ["fullname"],
  "per_field_analyzer" : {
    "fullname": "keyword"
  }
}

响应：

{
  "_index": "twitter",
  "_type": "_doc",
  "_version": 0,
  "found": true,
  "took": 6,
  "term_vectors": {
    "fullname": {
       "field_statistics": {
          "sum_doc_freq": 2,
          "doc_count": 4,
          "sum_ttf": 4
       },
       "terms": {
          "John Doe": {
             "term_freq": 1,
             "tokens": [
                {
                   "position": 0,
                   "start_offset": 0,
                   "end_offset": 8
                }
             ]
          }
       }
    }
  }
}

6. 示例：term过滤

最后，返回的term可以根据他们的tf-idf分数进行过滤。在下面的例子中，我们从具有给定“plot”field值的request中的doc中获取三个“interesting”的关键字。请注意，关键字“Tony”或任何停止词不是响应的一部分，因为它们的tf-idf必须太低。

GET /imdb/_termvectors
{
    "doc": {
      "plot": "When wealthy industrialist Tony Stark is forced to build an armored suit after a life-threatening incident, he ultimately decides to use its technology to fight against evil."
    },
    "term_statistics" : true,
    "field_statistics" : true,
    "positions": false,
    "offsets": false,
    "filter" : {
      "max_num_terms" : 3,
      "min_term_freq" : 1,
      "min_doc_freq" : 1
    }
}

响应：

{
   "_index": "imdb",
   "_type": "_doc",
   "_version": 0,
   "found": true,
   "term_vectors": {
      "plot": {
         "field_statistics": {
            "sum_doc_freq": 3384269,
            "doc_count": 176214,
            "sum_ttf": 3753460
         },
         "terms": {
            "armored": {
               "doc_freq": 27,
               "ttf": 27,
               "term_freq": 1,
               "score": 9.74725
            },
            "industrialist": {
               "doc_freq": 88,
               "ttf": 88,
               "term_freq": 1,
               "score": 8.590818
            },
            "stark": {
               "doc_freq": 44,
               "ttf": 47,
               "term_freq": 1,
               "score": 9.272792
            }
         }
      }
   }
}