大数据
MayMatrix
J2EE .
展开
-
【ELK之logstash】 grok入门:自测实例+常用正则(grok-patterns)
一、背景研究了grok几天,虽然知识还是很浅薄,但还是在这里做个总结。场景在使用logstash进行日志收集工作的时候,filter是个很重要的插件,而其中的Grok能很好的解析日志。logstash教程:https://blog.csdn.net/qq_34646817/article/details/81232083grok教程:https://blog.csdn.net/q...转载 2020-03-13 18:44:23 · 2373 阅读 · 0 评论 -
TiDB 在 OPPO 准实时数据仓库中的实践
PingCAP1.3kTiDB 在 OPPO 准实时数据仓库中的实践数据库实时分布式发布于 1月6日约 24 分钟本文转载自微信公众号“OPPO大数据”。作者介绍:OPPO 数据分析与解决方案团队主要负责 OPPO 全集团的大数据分析和解决方案提供,团队成员多来自一线互联网公司及著名高校,在 OPPO 众多场景的大数据应用方面有很深经验,极大的支撑了业务迅速发展。...转载 2020-02-27 16:31:48 · 977 阅读 · 0 评论 -
TiDB 的正确使用姿势
PingCAP1.3k10TiDB 的正确使用姿势mysqlsqlnosqlrustgithub发布于 2017-03-10约 10 分钟最近这几个月,特别是 TiDB RC1 发布后,越来越多的用户已经开始测试起来,也有很多朋友已经在生产环境中使用,我们这边也陆续的收到了很多用户的测试和使用反馈。非常感谢各位小伙伴和早期用户的厚爱,而且看了这么多场景...转载 2020-02-27 16:23:59 · 1584 阅读 · 0 评论 -
吴镝:TiDB 在今日头条的实践
PingCAP1.3k2吴镝:TiDB 在今日头条的实践mysql更新于 2018-03-19约 12 分钟转存失败重新上传取消本文整理自今日头条数据库中间件/分布式数据库负责人吴镝(知乎 ID:吴镝)在TiDB DevCon2018 上的分享内容。TiDB 主要应用在今日头条核心 OLTP 系统 - 对象存储系统中,存储其中一部分元数据,支持头...转载 2020-02-27 16:20:06 · 261 阅读 · 0 评论 -
TiDB Best Practice
PingCAP1.3kTiDB Best Practicemysqlgithub发布于 2017-07-05约 17 分钟本文档用于总结在使用 TiDB 时候的一些最佳实践,主要涉及 SQL 使用、OLAP/OLTP 优化技巧,特别是一些 TiDB 专有的优化开关。建议先阅读讲解 TiDB 原理的三篇文章(讲存储,说计算,谈调度),再来看这篇文章。前言数据库是一个通用...转载 2020-02-27 16:13:58 · 182 阅读 · 0 评论 -
OLAP、OLTP的介绍和比较
OLTP与OLAP的介绍 数据处理大致可以分成两大类:联机事务处理OLTP(on-line transaction processing)、联机分析处理OLAP(On-Line Analytical Processing)。OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易...转载 2020-02-17 13:17:36 · 201 阅读 · 0 评论 -
什么是"零拷贝"技术
前言从字面意思理解就是数据不需要来回的拷贝,大大提升了系统的性能;这个词我们也经常在java nio,netty,kafka,RocketMQ等框架中听到,经常作为其提升性能的一大亮点;下面从I/O的几个概念开始,进而在分析零拷贝。I/O概念1、缓冲区缓冲区是所有I/O的基础,I/O讲的无非就是把数据移进或移出缓冲区;进程执行I/O操作,就是向操作系统发出请求,让它要么把缓冲区的数...转载 2020-01-16 15:00:31 · 3562 阅读 · 1 评论 -
大数据核心知识点:Hbase、Spark、Hive、MapReduce概念理解,特点及机制
一、Hbase1.1、Hbase是什么?HBase是一种构建在HDFS之上的分布式、面向列的存储系统。在需要实时读写、随机访问超大规模数据集时,可以使用HBase。尽管已经有许多数据存储和访问的策略和实现方法,但事实上大多数解决方案,特别是一些关系类型的,在构建时并没有考虑超大规模和分布式的特点。许多商家通过复制和分区的方法来扩充数据库使其突破单个节点的界限,但这些功能通常都是事后增加...转载 2020-01-16 12:36:31 · 670 阅读 · 0 评论 -
MapReduce工作流程和工作原理
MapReduce是我们再进行离线大数据处理的时候经常要使用的计算模型,MapReduce的计算过程被封装的很好,我们只用使用Map和Reduce函数,所以对其整体的计算过程不是太清楚,同时MapReduce1.0和MapReduce2.0在网上有很多人混淆。MapReduce1.0运行模型20170730014216035.pngInputInput但是输入文件的存储位置,...转载 2020-01-16 12:31:36 · 1406 阅读 · 0 评论 -
Flink的入门简介
一.Flink的引入 这几年大数据的飞速发展,出现了很多热门的开源社区,其中著名的有Hadoop、Storm,以及后来的Spark,他们都有着各自专注的应用场景。Spark掀开了内存计算的先河,也以内存为赌注,赢得了内存计算的飞速发展。Spark的火热或多或少的掩盖了其他分布式计算的系统身影。就像Flink,也就在这个时候默默的发展着。在国外一些社区,有很多人将大...转载 2020-01-16 10:13:51 · 293 阅读 · 0 评论 -
Flink 从 0 到 1 学习 —— Apache Flink 介绍
Flink 是一种流式计算框架,为什么我会接触到 Flink 呢?因为我目前在负责的是监控平台的告警部分,负责采集到的监控数据会直接往 kafka 里塞,然后告警这边需要从 kafka topic 里面实时读取到监控数据,并将读取到的监控数据做一些 聚合/转换/计算 等操作,然后将计算后的结果与告警规则的阈值进行比较,然后做出相应的告警措施(钉钉群、邮件、短信、电话等)。画了个简单的图如...转载 2020-01-16 09:41:36 · 694 阅读 · 0 评论