记一次单表查询,数据量3亿+的操作错误

前言

近期新建了一张表用来存取客户近30天的资产信息数据量高于3个亿,建表时创建了分区,前台查询单个用户数据时及其缓慢,之后让etl加了索引,稍微好了一些。

问题

功能上线后,由于查询并发较高,查询缓慢,导致大量链接占用出现项目卡顿。

处理

经过排查,发现分区只在数据跑批时起到了一定作用,加快数据的插入,对于查询却没起到多大作用,因为分区根据日期来分,前面讲到是近30天的数据,这样的话查询要分30次,并发一高必然影响效率。索引 被etl加成了分区的,如此基本上没起到什么作用,因为分区后的数据,每个分区的索引意义不大,在查询30个分区的时候就已经是浪费时间了。最终取消了分区,增加了全局索引。取消分区只是在insert数据时缓慢,但对应sp只在夜间运行,消耗点时间没什么问题。

总结

表创建时加了分区以及索引。不料主键索引加在了分区上。上线后查询较慢,数据连接较大导致项目卡顿。数据内容为客户近30日的资产信息,起初创建分区为了新增数据方便。但真正查询时影响效率。分区有范围分区、哈希分区、列表分区、组合分区等。大数据情况下用分区表是好,但不是绝对的,要结合具体的应用场景,并且索引也非常关键,有无索引对查询效率影响是天壤之别。
问题: 查询资产时以天分区,查询30次,每个分区中只取1条数据,影响查询效率。
处理: 取消分区,增加全局索引。
全局索引与分区索引的区别:全局索引可以分区,也可以是不分区索引;如果有分区后创建全局索引,维护起来比较麻烦。

将大量数据导入HBase是一个需要细致规划的过程,尤其是在面对1亿录的场景下。这里提供一些建议步骤及注意事项: ### 准备阶段 #### 数据格式化 首先,你需要确保数据按照HBase的要求存储在正确的文件格式中。常用的输入格式包括CSV、JSON等,这些格式通常容易转换为HBase所需的行键、列族和列值。 #### 确定分片策略 在导入数据前,考虑如何合理划分数据到不同的Region上,这是提高查询性能的关键因素之一。你可以通过预处理数据并计算哈希值来决定每个数据项应放入哪个Region。 ### 导入过程 #### 使用Bulk Load工具 HBase提供了一种叫做`hbck`的命令行工具来批量加载数据。这个工具可以一次性导入大量的行到HBase集群中。 ```bash # 连接到HBase服务器 $ hbase shell # 启动bulk load进程 $ bulkload <input_path> <output_table> ``` 这里的 `<input_path>` 是数据文件的位置, `<output_table>` 是目标表名。 #### 并发导入 为了加速数据导入速度,可以考虑并发导入多个分区的数据。这需要更精细地管理任务分配,并可能涉及分布式资源调度。 ### 验证和优化 #### 查看导入结果 导入完成后,验证数据是否正确地被插入到HBase中是非常重要的。可以通过HBase的命令行界面或HBase Shell进行查询测试。 #### 性能监控 监控系统的运行状态,查看CPU、内存、磁盘I/O以及网络带宽占用情况,确保系统在高效利用资源的同时,也能满足后续的读写需求。 ### 关注点 1. **错误处理**:导入过程中可能出现各种错误,如数据格式不匹配、网络问题等。设置合理的日志录和错误处理机制非常关键。 2. **性能考量**:根据实际环境调整导入策略,比如分批导入、并行处理等,以减少单次操作对系统的压力。 3. **稳定性**:在大规模数据导入之前,确保所有依赖组件(如Zookeeper、RPC服务器等)处于稳定状态,避免在关键操作期间发生故障。 4. **资源规划**:合理预测资源需求,包括硬件配置、网络带宽、内存和CPU负载等,以避免导入期间造成其他服务的不稳定。 --- ##
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值