海量时序数据低成本存储架构设计

导读

近些年来得益于传感器技术、无线网络技术、云计算和人工智能技术的发展,物联网的基础设施日益完善,并应用到了新能源、智能家居、车联网、智慧工业等众多领域中,实现了“人与物”、“物与物”之间的互联。物联网给各行各业带来红利的同时,也给当前的技术带来了巨大的挑战,其中最关键的就是数据规模的急剧增长。根据 IDC 报告,到 2025 年物联网数据规模将达到 79.4 ZB,寻找合适的物联网数据存储解决方案自然变得非常重要。本文将结合物联网的数据特点和业务特性来解读如何降低数据存储成本,以及对比业内一些时序数据存储的实现方式。

物联网存储场景

物联网数据的产生是基于传感器采集的设备状态、事件、消息等数据,设备根据自身的类型使用对应的物联网通信协议接入到数据网关(IoT 网关),最后转发到存储,这是物联网数据流转到存储的通用链路。但是由于这些数据的应用场景不同,决定了其对存储架构的需求差异。例如业务上如果存储的是设备最新状态信息,那么每台设备只会对应一行设备状态数据(元数据),这个数据量级是由设备数决定的,一般在百万级,对于存储的需求更偏向于支持高 TPS 和索引能力。

另一种场景是业务上存储的是设备所有历史状态或者历史事件数据,那么设备数与数据量是 1 对 N 的关系,数据总量与设备数和存储时间范围正相关。以车辆轨迹数据存储为例,每辆汽车间隔一段时间就会上报一个 GPS 点,那么就需要存储一段时间内所有车辆上报的历史坐标,用于查看行车轨迹和位置,通常这类数据被称为时间序列数据(Timeseries Data)。时序数据的特点与访问模式都与传统互联网数据有非常大的差异,这导致其对于存储架构有着特殊的要求。

时序数据特点和读写模式

在解读时序数据存储架构之前,首先需要了解一下时序数据的一些概念和特点。通常来说,一个经典的时序数据模型包括:数据源(datasource),标签(tags),时间戳(timestamp),度量指标(mertics)。数据源 + 标签表示独立的时间线,数据源 + 标签 + 时间戳表示独立的时间点。

例如我们构造了一组时序数据样例,将其映射到二维表结构上如下图所示,图中包含了三组时间线,每一个时间线代表了设备个体的历史数据变化。其中数据源(datasource)和 tags(标签)用于区分设备,不同的设备型号的度量指标(mertics)不一样。

从中可以总结出如下几个特点:

  1. 数据源唯一

时序数据总是由固定设备产生,不同设备之间产生数据的过程相互独立。这一点对于数据的访问性能和存储空间都有着非常大的优化空间。

  1. 指标维度多

物联网设备种类非常复杂,每种类型的设备度量指标大不一样,例如 A 类型设备上报的是温度、湿度,而 B 类型设备上报的是压力值。存储所有设备的度量指标所需要定义的字段会达到几十个甚至上百个,且会动态增加。如果使用关系型数据库来存储,则需要根据字段数的动态变化频繁修改数据表 schema,这显然是不能接受的。如果按照设备类型分表存储,那么当业务上对多种类型设备聚合分析时,就需要多表 join,这不仅会提高业务代码的复杂度,同时会降低查询的性能。

  1. 时间顺序产生

时序数据是按照固定的周期或者是某个事件触发上报的,每一行时序数据都会带有数据上报时间戳 timestamp 属性。通常情况下,同一个设备下

  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 高并发时序数据存储的一种专利,该专利提供了一种利用可伸缩的数据模型来存储时序数据的方法,在收集、存储、管理和检索时序数据的过程中提供了更高的性能和可伸缩性。专利提出了一种利用可伸缩的数据模型来存储时序数据的方法,它可以支持高并发量的时序数据存储,从而有效提高时序数据收集、存储、管理和检索的性能。 ### 回答2: 标题:基于高并发时序数据存储的方法与系统 摘要:本专利涉及一种基于高并发时序数据存储的方法与系统,旨在解决传统数据存储方法在处理大规模时序数据时的性能问题。该方法与系统采用分布式架构,具备高并发、高可靠和高可用性的特点,适用于大数据分析、物联网、金融交易等领域。 1. 技术背景: 随着互联网和物联网的快速发展,海量时序数据的产生和存储成为一个重要挑战。传统的关系型数据库和文件系统已经无法满足高并发和高吞吐量的需求。因此,本专利提供一种针对高并发时序数据存储的解决方案。 2. 发明内容: 本专利提供了一种基于高并发时序数据存储的方法和系统。该方法主要包括以下步骤: a) 数据分区与负载均衡:将大规模的时序数据根据时间戳进行分区,并采用负载均衡策略将数据均匀地分布到多个存储节点上,以实现高并发和高吞吐量的数据处理; b) 数据存储与索引:利用分布式存储技术,在每个存储节点上存储时序数据,并建立索引,以支持快速的数据检索和查询; c) 冷热数据分离:根据数据的使用频率,将热数据存储在高速存储介质上,而将冷数据存储低成本的介质上,以提高存储效率和降低成本; d) 容灾与备份:采用多副本备份和容灾技术,确保时序数据的安全性和可靠性; e) 数据压缩与清理:对历史数据进行压缩和清理,以减少存储空间的占用率。 3. 优势和创新点: 本专利的方法与系统具有以下优势和创新点: a) 高并发能力:采用分布式架构和负载均衡策略,实现高并发和高吞吐量的数据处理; b) 高可靠性:采用多副本备份和容灾技术,确保时序数据的安全性和可靠性; c) 高扩展性:支持动态增加存储节点,以应对数据规模的增长; d) 低成本:通过冷热数据分离和数据压缩技术,降低存储成本; e) 快速查询:通过建立索引和优化查询算法,实现快速的数据检索和查询。 总结:本专利提供了一种高并发时序数据存储的方法与系统,具备高并发、高可靠和高可用性的特点,适用于大规模时序数据的处理和分析。该方法与系统在大数据分析、物联网、金融交易等领域具有广阔的应用前景。 ### 回答3: 题目:高并发时序数据存储的专利申请 摘要: 本发明涉及一种用于高并发时序数据存储的系统和方法。当前,大数据物联网应用的快速发展使得时序数据存储需求在不断增加。本发明提出了一种高并发时序数据存储方案,可实现在高并发情况下高效地存储和检索时序数据,使得大规模数据的采集、处理和分析更加便捷。 背景: 现有技术中,传统的时序数据存储方法在遇到高并发请求时存在存储吞吐量低、延迟高等问题。本发明针对这些问题提出了一种新的高并发时序数据存储方案,期望优化存储系统的性能和效率。 发明内容: 本发明提出了一种高并发时序数据存储系统,包括数据采集模块、存储处理模块和数据检索模块。其中,数据采集模块负责从不同设备或传感器中接收并采集时序数据,并对数据进行预处理。存储处理模块负责将经过预处理的数据存储数据库中,并进行数据的归档、压缩和索引。数据检索模块负责从数据库中提取时序数据,并支持多维度的数据查询操作。 本发明的关键在于提出了一种优化存储系统性能的数据归档方案。在高并发情况下,将时序数据按照特定的规则进行归档,能够降低数据的访问延迟和提高存储吞吐量。另外,通过对时序数据进行压缩和索引,能够进一步减少存储空间占用和提高检索效率。 创新点: 1. 本发明提出了一种高并发时序数据存储方案,能够解决传统存储方法在高并发情况下的性能瓶颈问题。 2. 引入了一种优化存储系统性能的数据归档方案,能够降低访问延迟和提高存储吞吐量。 3. 通过时序数据的压缩和索引,能够减少存储空间占用和提高检索效率。 应用前景: 本发明的高并发时序数据存储方案在大数据物联网应用中具有广泛的应用前景。例如,在工业生产监测、交通运输管理和环境监测等领域,大规模时序数据的采集、存储和分析需求日益增长,本发明能够提供高效、可靠的时序数据存储解决方案。 结论: 本发明提出了一种高并发时序数据存储的专利申请,通过优化存储系统的性能和效率,能够实现在高并发情况下高效地存储和检索时序数据。本发明的应用前景广阔,有望在大数据物联网领域发挥重要作用。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值