Elasticsearch使用误区——key-value数据存储

本文描述Elasticsearch的错误使用场景——作为key-value数据存储。

问题描述

关系型数据库有严格的schema,每个独立业务需要分别按表进行存储。有时为了检索或统计方便,我们会把数据汇聚至Elasticsearch单个索引中,利用动态mapping技术,定义主要字段,从而实现灵活检索和统计分析类应用。但是当汇聚各类表时会造成Elasticsearch中索引的字段数量不受控制。当mapping不断扩展时,每个分片及索引会占用大量内存资源。

正确姿势

因为Elasticsearch索引缺省字段数量限制为1024,因此需要控制mapping增长。

首先需要规划Elasticsearch的应用,如果用于检索和常规统计,则应该存储需要检索和统的字段,于此无关的字段可以不在Elasticsearch中存储,从而避免了字段不受控制增长。

对于分析类应用,结合应用场景汇聚数值型、日期型、keyword等类型,确保汇聚字段能够相对固定,不至于超出最大限制。

必要时可以使用_all_source两个字段。这两个字段应用场景不同,分别存储在lucene索引中的不同位置。_all字段变成了我们所说的倒排索引的一部分,用来索引文本并能够对它执行全文搜索,而_source字段只是作为lucene文档的一部分存储,用于返回结果。

总结

本文结合应用场景介绍如何正确使用Elasticsearch,避免把ES作为key-value数据库使用。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
使用elasticsearch-dsl可以很方便地将Scrapy爬取的数据存储Elasticsearch中。 首先,需要在Scrapy项目中安装elasticsearch-dsl: ``` pip install elasticsearch-dsl ``` 然后,在Scrapy项目的settings.py文件中添加以下代码: ``` ELASTICSEARCH_HOST = 'localhost' ELASTICSEARCH_PORT = 9200 ELASTICSEARCH_USERNAME = '' ELASTICSEARCH_PASSWORD = '' ELASTICSEARCH_INDEX = 'my_index' ELASTICSEARCH_TYPE = 'my_type' ``` 这里需要设置Elasticsearch的主机名、端口号、用户名、密码、索引名称和类型名称。 接下来,在Scrapy项目中的pipelines.py文件中编写以下代码: ``` from elasticsearch_dsl.connections import connections from elasticsearch_dsl import DocType, Text, Date, Integer from scrapy.utils.project import get_project_settings class MyItem(DocType): title = Text() content = Text() publish_date = Date() view_count = Integer() class Meta: index = get_project_settings().get('ELASTICSEARCH_INDEX') doc_type = get_project_settings().get('ELASTICSEARCH_TYPE') class ElasticsearchPipeline(object): def __init__(self): settings = get_project_settings() self.es = connections.create_connection( hosts=[{'host': settings.get('ELASTICSEARCH_HOST'), 'port': settings.get('ELASTICSEARCH_PORT')}], http_auth=(settings.get('ELASTICSEARCH_USERNAME'), settings.get('ELASTICSEARCH_PASSWORD')) ) def process_item(self, item, spider): my_item = MyItem(title=item['title'], content=item['content'], publish_date=item['publish_date'], view_count=item['view_count']) my_item.save(using=self.es) return item ``` 这里定义了一个MyItem类,包含了需要存储Elasticsearch中的字段。ElasticsearchPipeline类则是对数据进行处理和存储的类,其中在初始化方法中连接Elasticsearch,将数据保存到Elasticsearch中的process_item方法中则是通过创建MyItem对象并调用save方法来完成的。 最后,在Scrapy项目中的settings.py文件中添加以下代码启用ElasticsearchPipeline: ``` ITEM_PIPELINES = { 'my_project.pipelines.ElasticsearchPipeline': 300, } ``` 这样,爬取到的数据就会自动存储Elasticsearch中了。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值