BIG DATA
文章平均质量分 94
jakeswang
要有一颗奋进的心
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
十万qps也就洒洒水实战-本地缓存和布隆过滤器神兵利器
本文分享了作者在负责高并发系统时应对十万级QPS的实战经验。通过地图导航业务场景,详细介绍了系统架构设计、数据库选型(选择HBase)及性能优化过程。重点解决了读放大问题,采用"大布隆+小布隆"过滤器的创新方案降低数据库压力,并通过本地缓存解决节假日热点问题。文章强调技术方案需结合实际业务场景,深入理解技术细节才能有效应对高并发挑战,而非单纯背诵八股文。作者用亲身经历证明十万QPS并非噱头,合理的缓存设计对业务稳定性至关重要。原创 2025-09-12 06:00:00 · 1036 阅读 · 0 评论 -
去哪儿StarRocks实践
去哪儿网数据平台通过引入StarRocks作为统一OLAP引擎,解决了多引擎架构带来的兼容性、性能和运维挑战。该文详细介绍了选型评估过程,StarRocks的MPP架构、特性优势,以及在QBI看板、趣分析等业务场景的落地实践,包括集群建设、查询优化、语法兼容性改造等关键技术方案。通过迁移改造,查询性能显著提升(P95从5.7s降至2.4s),并形成了一套完整的迁移保障体系。未来计划在K8s部署和实时数仓建设方面进一步优化。原创 2025-08-05 18:00:13 · 819 阅读 · 0 评论 -
删除大表数据注意事项
数据库是否会因删除操作卡死,,而是受等多种因素影响。WHERE小表(<10 万条,有索引)5000-10000 条内存可缓存数据,索引加速查询,分批提交即可。中等表(100 万 - 500 万条)1000-5000 条需搭配索引 + 小事务(如每 1000 条提交一次),避免锁持有过久。大表(>1000 万条,HDD)500-1000 条机械硬盘 IO 受限,建议每次删除不超过 1000 条,配合 1 秒以上休眠。超大表(>1 亿条,无分区)100-500 条。原创 2025-06-17 16:16:04 · 1247 阅读 · 0 评论 -
ES不香吗,为啥还要ClickHouse?
Elasticsearch 是一个实时的分布式搜索分析引擎,它的底层是构建在 Lucene 之上的。简单来说是通过扩展 Lucene 的搜索能力,使其具有分布式的功能。ES 通常会和其它两个开源组件 Logstash(日志采集)和 Kibana(仪表盘)一起提供端到端的日志/搜索分析的功能,常常被简称为 ELK。Clickhouse 是俄罗斯搜索巨头 Yandex 开发的面向列式存储的关系型数据库。ClickHouse 是过去两年中 OLAP 领域中最热门的,并于 2016 年开源。原创 2025-04-16 10:21:16 · 1111 阅读 · 0 评论 -
关于数据中台的深度思考与总结
•同一种计算引擎,不同厂商的权限系统有多种,例如Hadoop自身无数据权限系统,由不同厂商各自去实现,目前主要有两种策略:•RBAC(Role-Based Access Control):如Cloudera用的是Sentry,华为的FI也是类似的机制•PBAC(Policy-Based Access Control):如Hortonworks用的Ranger•数据权限是由大数据集群或数据库运维人员管理的,开发人员无法直接操作或者接触,所有的权限申请都需要运维人员开通,造成运维人员负担过重。原创 2025-04-15 07:15:00 · 1341 阅读 · 0 评论 -
Rocksdb KV分离存储实践
这个要从一篇论文说起 —— 《WiscKey》。我们知道 Rocksdb 中,key 和 value 是存在一起的,该论文提出了一种优化思路:在 LSM-tree 上做 key 和 value 分离存储。如下图:该论文的思想比较好理解,就是将 key 和 value 对应的索引存 LSM-tree 中,将真正的 value 存在另一个文件中。目前 KV 分离存储方案已经应用到了喜马拉雅的 XCache 存储系统中,大大降低了大 value 场景下的延时问题。原创 2025-04-13 06:00:00 · 1341 阅读 · 0 评论 -
Unicorn 如何快速定位性能问题
首先先来说一下为什么我们要做这样一个数据可视化平台,主要有以下几个方面:产品是否免费Ops账号登录、细分权限易上手公司计算引擎集成Tableau❌❌✅❌网易有数❌❌✅❌Excel❌❌✅❌Unicorn✅✅✅✅由于有上面这些业务场景,我们便开始搭建属于喜马拉雅的一个数据可视化平台。1、echart实例在路由切换,前面一个组件已经销毁后,并没有释放掉。2、detached的dom没有被回收的问题。3、部分event listener没有被及时回收。原创 2025-04-12 07:00:00 · 905 阅读 · 0 评论 -
prometheus+granfna做数据监控
prometheus+granfna做数据监控原创 2020-05-14 14:10:03 · 1054 阅读 · 0 评论 -
TiDB 简介
TiDB 简介:https://pingcap.com/docs-cn/(这篇文章整理的挺全面的)TiDB 是 PingCAP 公司设计的开源分布式 HTAP (Hybrid Transactional and Analytical Processing) 数据库,结合了传统的 RDBMS 和 NoSQL 的最佳特性。TiDB 兼容 MySQL,支持无限的水平扩展,具备强一致性和高可用性。T...原创 2020-01-07 16:56:26 · 2114 阅读 · 0 评论 -
kafka总结
1.1 Kafka的特性:- 高吞吐量、低延迟:kafka每秒可以处理几十万条消息,它的延迟最低只有几毫秒,每个topic可以分多个partition, consumer group 对partition进行consume操作。- 可扩展性:kafka集群支持热扩展- 持久性、可靠性:消息被持久化到本地磁盘,并且支持数据备份防止数据丢失- 容错性:允许集群中节点失败(若副本数量...原创 2020-01-07 16:39:01 · 568 阅读 · 0 评论 -
HDFS总结
一、简介:HDFS(Hadoop Distributed File System),作为Google File System(GFS)的实现,是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,是基于流数据模式访问和处理超大文件的需求而开发的,可以运行于廉价的商用服务器上。它所具有的高容错、高可靠性、高可扩展性、高获得性、高吞吐率等特征为海量数据提供了不怕故障的存储,为超大数据集...原创 2020-01-07 15:22:58 · 1092 阅读 · 0 评论
分享