浪尖聊大数据-浪尖-CSDN博客

转载这样搭建日志中心，传统的ELK就扔了吧！

最近客户有个新需求，就是想查看网站的访问情况。由于网站没有做google的统计和百度的统计，所以访问情况，只能通过日志查看，通过脚本的形式给客户导出也不太实际，给客户写个简单的页面，咱也做不到。成熟的日志解决方案，那就是ELK，还有现在比较火的Loki，（当然还有很多其他解决方案，比如Splunk、Datadog等），那我们这个小网站，小体量，必然是选择Loki来做。所以这次就采用Nginx+Pr...

2024-04-03 19:24:15 36

原创如何判断hive sql生成mapreduce任务的数量

在 Hive 中，一个 SQL 查询最终会被翻译成一个或多个 MapReduce 作业。判断 Hive SQL 生成的 MapReduce 任务数量通常涉及以下几个方面：1. 使用 EXPLAIN 命令Hive 提供了 EXPLAIN 命令，它可以显示 Hive SQL 查询的执行计划，包括将要执行的 MapReduce 作业的数量和详细的阶段信息。要查看一个查询的执行计划，可以在 Hive 查询...

2024-04-02 08:30:54 708

转载大规模事件处理选择Redis，还是Kafka？

Kafka以解决大规模数据处理问题而闻名，并被广泛部署在许多知名公司的基础设施中。早在2015年，LinkedIn有60个集群，总共有1100个Broker，每秒处理1300万条信息。但事实证明，规模并不是Kafka唯一擅长的事情。它所提倡的编程范式——分区、有序、事件处理——对于你可能面临的许多问题都是一个很好的解决方案。例如，如果事件代表的是要被索引到搜索数据库的行，那么最后的修改就是最后的索...

2024-04-02 08:30:54 68

转载 Flink CEP 在抖音电商的业务实践

01Flink CEP 简介Flink CEP 是基于 Flink Runtime 构建的复杂事件处理库，它擅长处理跨多个事件的复杂规则匹配场景。例如检测用户下单后，是否超过半个小时没有发生支付行为；检测用户进入直播间后，是否有浏览商品随后加入购物车行为。Flink CEP 有以下优势：支持跨多事件的规则匹配计算；支持精准一次计算语义；低延迟、高吞吐等特性。02业务场景与挑战随着抖音电商业务逐渐趋...

2024-03-31 10:56:22 88

原创 Spark Streaming结合Esper实现CEP

介绍如何使用一个真正可以与Spark Streaming结合使用的第三方库——esper来实现CEP。EsperEsper是一个为复杂事件处理和事件流处理提供实时内存数据分析的组件。虽然Esper可以独立使用，但是通过将其与Spark Streaming结合，可以利用Spark的分布式计算能力处理大规模数据流，同时使用Esper进行复杂的事件模式匹配和分析。以下是使用Esper和Spark Str...

2024-03-30 10:00:10 390

原创 Esper简介，优缺点，及使用案例

Esper是一个高性能的复杂事件处理（CEP）和事件流处理（ESP）引擎，它允许用户从广泛的数据源实时处理和分析高频率的事件流。Esper使用一种声明式的查询语言，非常类似于SQL，但针对实时数据流进行了优化。这使得Esper成为在金融服务、网络监控、智能传感器分析、电信以及其他需要快速、实时数据分析的领域的一个理想选择。Esper的优点实时性：Esper能够在事件发生的同时进行处理和分析，支持低...

2024-03-30 10:00:10 401

转载开源量化系统简介

如果你拥有一定的编程技能和量化投资知识，可以根据自己的需求自主开发一套本地的量化投资系统，自建系统的好处是灵活，可以很好的实现自己的构思。但自建系统需要有较高的技术能力，如果欠缺这方面的技术或不想花费过多的精力造轮子，也可以选择用开源的量化系统来搭建本地的量化系统。开源量化系统提供了基本的量化策略开发、回测和交易接口，可以帮助交易者构建、测试和执行算法交易策略，但具体选择还需根据你的需求和技术能力...

2024-03-29 09:00:48 164

转载为什么 IDEA 建议去掉 StringBuilder，而要使用 “+” 拼接字符串？

前言各位小伙伴在字符串拼接时应该都见过下面这种提示：内容翻译：报告StringBuffer、StringBuilder或StringJoiner的任何用法，这些用法可以用单个java.lang.String串联来替换。使用字符串串联可以使代码更短、更简单。只有当得到的串联至少与原始代码一样高效或更高效时，此检查才会报告。大家普遍认知中，字符串拼接要使用StringBuilder，那为什么idea会...

2024-03-27 08:30:43 50

转载 1w+ 字深入解读 Flink SQL 实现流处理的核心技术！

本文摘编于《Flink SQL 与 DataStream 入门、进阶与实战》，作者羊艺超。使用SQL实现流处理的核心技术在了解了Table\SQL API的使用方法以及作业运行机制之后，接下来分析SQL实现流处理的核心技术。为什么要分析这个问题呢？因为传统的关系代数以及SQL最开始是为了批处理设计的，在传统关系型数据库以及批处理中，数据都是有界的，因此SQL语句的执行过程比较好理解，但是在流处理中...

2024-03-26 09:00:31 93

转载不好意思，ELK 该换了！

最近客户有个新需求，就是想查看网站的访问情况，由于网站没有做google的统计和百度的统计，所以访问情况，只能通过日志查看，通过脚本的形式给客户导出也不太实际，给客户写个简单的页面，咱也做不到成熟的日志解决方案，那就是ELK，还有现在比较火的Loki，（当然还有很多其他解决方案，比如Splunk、Datadog等），那我们这个小网站，小体量，必然是选择Loki来做。所以这次就采用 Nginx+Pr...

2024-03-26 09:00:31 39

转载 MapReduce和Spark的区别，使用场景

Apache Spark与MapReduce都是处理大规模数据集的强大框架，但它们在设计理念、性能以及使用场景上存在显著的差异。MapReduceMapReduce是一种编程模型，用于在大型计算集群上并行处理大数据集。它主要由两个阶段组成：Map阶段和Reduce阶段，之间通过磁盘进行数据交换。特点：稳定且成熟：作为Hadoop生态系统的核心，MapReduce是经过广泛测试和使用的稳定计算模型。...

2024-03-25 09:00:48 121

转载什么是数据仓库的架构？企业数据仓库架构如何建设？

全文共4102字，建议阅读11分钟企业数据仓库架构关于数据仓库，有一种简单粗暴的说法，就是“任何数据仓库都是通过数据集成工具连接一端的原始数据和另一端的分析界面的数据库”。数据仓库用来管理企业庞大的数据集，提供转换数据、移动数据并将其呈现给终端用户的存储机制。许多架构方法以这样或那样的方式扩展数据仓库的能力，我们讲集中讨论最本质的问题，在不考虑过多技术细节的情况下，整个层次架构可以被划分为4层：原...

2024-03-21 21:18:37 89

原创香喷喷面试题之static

在 Java 中，关于static局部变量和普通局部变量的区别，首先需要明确一点：Java 实际上不支持在方法内部声明static局部变量。static关键字主要用于类级别的变量和方法，而不是局部变量。因此，下面的讨论基于对static变量（类变量）和普通局部变量的比较：static变量（类变量）与普通局部变量的区别：生命周期：static变量：它们在程序开始时创建，在程序结束时销毁。static...

2024-03-18 08:30:42 319

转载 redis分布式锁的原理及java的实现代码

Redis 分布式锁的原理Redis 分布式锁主要是利用了 Redis 的命令和特性来实现锁的机制。核心思想是使用 Redis 的SETNX或SET命令（带选项PX和NX），这些命令可以保证在多个客户端之间的互斥访问。锁的获取：使用SET key value NX PX milliseconds命令尝试设置一个键值对，其中NX表示仅当键不存在时才进行设置，PX millise...

2024-03-15 09:00:28 96

转载在设计Kafka Topic时，如何决定Partition的数量？

在设计Kafka主题（Topic）时，确定分区（Partition）的数量是一个关键决策，它会直接影响到Kafka集群的性能、吞吐量和可伸缩性。以下是决定分区数量时需要考虑的几个关键因素：1. 吞吐量需求高吞吐量的应用可能需要更多的分区来并行处理数据。增加分区数量可以提高并发度，从而提高整体的处理能力。2. 并发消费者数量分区的数量也限制了可以并发消费Topic的消费者数量。每个消费者组中的消费者...

2024-03-11 08:31:02 339

原创简单回顾java垃圾回收器发展史｜面试

Java垃圾回收器（GC）的发展史体现了Java平台对性能优化的不断追求，旨在满足各种应用场景下对吞吐量、延迟和资源利用率的不同需求。以下是Java垃圾回收器发展的主要里程碑：1. 早期的垃圾回收器串行垃圾回收器（Serial GC）：Java初始版本中的默认GC，使用单线程进行垃圾回收，适用于小型应用和低并发环境。由于它在执行垃圾回收时会暂停所有应用线程（Stop-The-World, STW）...

2024-03-10 09:30:38 485

转载 Java序列化与反序列化三连问：是什么？为什么要？如何做？

Java序列化与反序列化是Java编程语言中的一个核心概念，涉及到对象的转换过程以及数据持久化和传输。分别解答提出的三个问题：Java序列化是什么？Java序列化是一个将对象转换为字节序列的过程，使得这个字节序列可以被存储到磁盘上或通过网络传输到另一个网络节点。当对象被序列化时，对象的状态和类型信息被保存下来，以便在未来可以重新构建这个对象，无论是在同一个应用程序中还是在另一个应用程序中。2. 为...

2024-03-01 21:02:58 63

转载突发！刚刚公布:全体数据分析从业者的重大利好来了！！！

作为席卷全球的新概念ESG已然成为当前各个行业关注的最热风口近期国内官方发布了一项ESG新证书含金量五颗星、中文ESG证书、完整ESG考试体系、名师主讲...甚至在行业圈成为大佬们的热门话题...01 ESG为什么重要？在双碳的大背景下，ESG已然成为了各个行业关注的发展重点战略板块。无论是科技企业还是金融、环保、法律、建筑、化工、互联网、财会审计等等各个行业都在加紧布局，ESG定会成为下一个重要...

2024-02-29 09:00:27 48

原创如何让chatgpt4当大数据架构师？

前两天浪尖试着爬知乎问题，然后让chatgpt回答，回答了4个问题，被知乎发现了两个，????，答案被折叠了。。。。。通过两天对chatgpt4的测试发现，chatgpt4是真强。浪尖这里搜了一个知乎问题，然后让chatgpt回答，然后不好的地方再给提示，然后让他再回答。问题如下：Hadoop 和 BI 如何结合？搭建一个基于 Hadoop+Hive 的数据仓库，它的前端展现如何实现？如何实现 BI？c...

2024-02-27 08:30:25 921

转载模型设计、数据架构、数据治理一体化大数据平台

全文共计3656字，预计阅读时间8分钟本文目录：一、模型设计 1.1 维度建模或实体关系建模 1.2 星型模型和雪花模型 1.3 数据分层 1.4 数据基础层 1.5 数据中间层 1.6 数据集市层二、数据架构 2.1 数据整合 2.2 数据服务化 2.3 架构设计中一些实用的点三、数据治理 3.1 数据质量 3.2 数据生命周期管理随着互联网规模不断的扩大，数据也在爆炸式地...

2024-02-25 12:35:50 85

转载 Flink在涂鸦防护体系中的应用

一、引言随着互联网的快速发展，数据量呈爆炸性增长，安全分析领域面临着前所未有的挑战。传统的安全分析方法在处理海量数据时显得力不从心，无法满足实时、高效的需求。为了解决这一问题，Flink作为一种实时数据处理框架，逐渐在安全分析领域崭露头角。本文将基于涂鸦SOC平台建设经验浅谈Flink在安全分析领域的应用。一、Flink介绍Flink是一个开源的分布式流处理框架，被设计用于对无界和有界数据流进行有...

2024-02-21 21:56:51 45

转载微信为什么使用 SQLite 保存聊天记录？

SQLite 是一个被大家低估的数据库，但有些人认为它是一个不适合生产环境使用的玩具数据库。事实上，SQLite 是一个非常可靠的数据库，它可以处理 TB 级的数据，但它没有网络层。接下来，本文将与大家共同探讨 SQLite 在过去一年中最新的 SQL 功能。SQLite “只是”一个库，它不是传统意义上的服务器。因此，在某些场合下，它确实不合适。但是，在相当多的其他场合，它却是最合适的选择。SQ...

2024-02-20 09:00:37 71

转载 Flink 流批一体在 Shopee 的大规模实践

01流批一体在 Shopee 的应用场景首先，先来了解一下 Flink 在 Shopee 的使用情况。除了流任务，仅从支持的批任务来看，Flink 平台上的作业已经到达了一个比较大的规模。目前 Flink 批任务已经在 Shopee 内部超过 60 个 Project 上使用，作业数量也超过了 1000，这些作业在调度系统的支持下，每天会生成超过 5000 个实例来支持各个业务线。从应用场景划分，...

2024-02-19 09:02:43 54

转载开源大数据 OLAP 的思考及最佳实践

01开源 OLAP 综述近年来开源领域涌现出了众多优秀产品，如 StarRocks、Doris、湖数据、湖格式、Spark 以及早期的 HBase、Presto 等。种类繁多的开源工具为用户带来了便利，同时也带来了选择难题。上图中对各种数据库做了简单的分类。例如，StarRocks、Doris 和 CK 等，它们在过去主要是存算一体的 AP 数据库。而 Presto、Trino 和 Impala ...

2024-02-18 09:01:12 66

转载 5000字构建企业数据治理体系(建议收藏)

全文共4925个字，建议阅读10分钟‍数据治理是企业数据建设必不可少的一个环节。好的数据治理体系可以盘活整条数据链路，最大化保障企业数据的采集、存储、计算和使用过程的可控和可追溯。如何构建企业数据治理体系？企业数据治理过程需要注意哪些问题？总体而言，不能一口一个胖子，路要一步一步地走。下面我将结合企业级数据治理经验，详细介绍从0到1搭建数据治理体系全流程，帮你梳理数据治理的主要内容以及过程中会...

2024-02-17 11:51:10 67

转载月薪已炒到15w？真心建议大家人冲一冲新兴领域，工资高前景好！！！

ESG真的火了！“企业ESG部门经理月薪10-15万，应届生起薪2-4万，已经算个正常薪资水平。” ESG猎头如是说。01 求职新风口 ESG火爆网络要说这两年哪些词最热门且最受行业关注？ESG绝对能排在前三。作为行业新风口，ESG几乎席卷和覆盖了各大领域！这股风潮正在全行业悄然蔓延，大家暗戳戳“卷”起了关于ESG的一切。懂ESG的数据人，到底有多香？各大企业要想可持续发展、ESG作为投资的重要...

2024-02-14 09:00:21 57

转载 4000字读懂实时数仓的过去现在和未来(建议收藏)

点击上方 "大数据肌肉猿"关注,星标一起成长点击下方链接，进入高质量学习交流群今日更新| 1052个转型案例分享-大数据交流群1991年，比尔·恩门（Bill Inmon）出版了他的第一本关于数据仓库的书《Building the Data Warehouse》，标志着数据仓库概念的确立。我们所常说的企业数据仓库Enterprise Data Warehouse (EDW) ，就是一个用于聚合不...

2024-02-01 09:00:35 88

转载突发！刚刚公布: 全体数据人狂欢吧！！

ESG真的火了！“企业ESG部门经理月薪10-15万，应届生起薪2-4万，已经算个正常薪资水平。” ESG猎头如是说。01 求职新风口 ESG火爆网络要说这两年哪些词最热门且最受行业关注？ESG绝对能排在前三。作为行业新风口，ESG几乎席卷和覆盖了各大领域！这股风潮正在全行业悄然蔓延，大家暗戳戳“卷”起了关于ESG的一切。懂ESG的数据人，到底有多香？各大企业要想可持续发展、ESG作为投资的重要...

2024-01-31 09:01:22 52

转载 Flink 2.0 状态管理存算分离架构演进

摘要：本文整理自阿里云智能 Flink 存储引擎团队负责人梅源在 Flink Forward Asia 2023 的分享，梅源结合阿里内部的实践，分享了状态管理的演进和 Flink 2.0 存算分离架构的选型。内容主要分为以下五部分：1.引言2.为什么状态对 Flink 如此重要3.状态存储提升 —— 社区和商业版状态存储4.状态管理存算分离架构 —— 架构演进和挑战5. 总结01引言我们...

2024-01-26 08:26:31 113

转载深入讲解四种数仓建模理论方法

数据仓库的建设的最重要的核心核心之一就是数仓模型的设计和构建，这个决定了数仓的复用和性能，本文将介绍四种建模的理论：维度建模、关系建模、Data Vault建模、Anchor模型建模，文后也介绍几种常见的数仓建模工具。一、数仓建模的目标在了解数仓建模理论方法前，要先清楚我们建模的目的是什么，目标又在哪里，建模要到达什么样的效果？访问性能：能够快速查询所需的数据，减少数据I/O。数据成本：减少不必...

2024-01-23 21:28:18 806

转载 Spark+Celeborn：更快，更稳，更弹性

摘要：本篇内容主要分为三个部分：1.传统 Shuffle 的问题2.Apache Celeborn （Incubating）简介3.Celeborn 在性能、稳定性、弹性上的设计一、传统Shuffle的问题Apache Spark 是广为流行的大数据处理引擎，它有很多使用场景: Spark SQL、批处理、流处理、MLLIB、GraphX 等。在所有组件下是统一的 RDD 抽象，RDD 血缘通过...

2024-01-21 18:50:28 165

转载提前恭喜！全体数据人要彻底炸锅了！这波好消息来的太突然！

ESG真的火了！“企业ESG部门经理月薪10-15万，应届生起薪2-4万，已经算个正常薪资水平。” ESG猎头如是说。01 求职新风口 ESG火爆网络要说这两年哪些词最热门且最受行业关注？ESG绝对能排在前三。作为行业新风口，ESG几乎席卷和覆盖了各大领域！这股风潮正在全行业悄然蔓延，大家暗戳戳“卷”起了关于ESG的一切。懂ESG的数据人，到底有多香？各大企业要想可持续发展、ESG作为投资的重要...

2024-01-17 09:02:39 68

转载基于 Apache Flink 的实时计算数据流业务引擎在京东零售的实践和落地

01京东零售实时计算的现状1.1 现状技术门槛高、学习成本大、开发周期长。行业内实时开发能力只有少数人能够掌握的现状；数据开发迭代效率比较低，重复逻辑反复的开发缺少复用；测试运维难，复杂业务逻辑难以局部测试。1.2动力降本增效、节省人力，助力高效开发；多角色数据开发，不同角色对应不同的开发方式，非数据人员也能做数据开发的工作。1.3 目标降低数据开发门槛，通过标准化积木式的开发，实现低代码配置化...

2024-01-13 22:26:45 82

转载 12条SQL不起眼的数仓调优技巧

作者：KubeData本文是作者本人做数仓调优时，所经常使用的SQL调优技巧，这些“技巧”也是经过日常不断摸索、问题排查以及网络检索并且经过本人在线上大规模使用过的，对于下面这12条（不算多，但特别有用）调优小“技巧”，希望能帮助阅读本文的同学能够在日常编写分析语句时，提升任务执行的效率。当然也希望你能谨记并养成一种调优习惯，那么无论对于工作还是面试都是有利无害。请记住：在数据处理中，不怕数据量...

2024-01-11 20:04:44 151

转载湖仓存储系统设计剖析和性能优化

01湖仓系统阿里云EMR湖仓系统相较于传统的数仓、数据湖来讲，湖仓系统是一种新的数据管理系统。上图展示了阿里云EMR湖仓系统的整体架构，它是围绕着Delta Lake、Iceberg、Hudi等开源数据湖格式构建的，它同时具备数仓的高性能和数据湖的低成本、开放性。这些数据湖格式基于开源的Parquet和ORC构建，能够在AWS S3、阿里OSS等低成本存储系统上运行，它还具备ACID事务、批流一...

2024-01-07 21:24:54 78

转载总结：数据分析规范（经典）

来源：数据治理体系全文共3609个字，建议阅读8分钟01结构规范及写作报告常用结构：1. 架构清晰、主次分明数据分析报告要有一个清晰的架构，层次分明能降低阅读成本，有助于信息的传达。虽然不同类型的分析报告有其适用的呈现方式，但总的来说作为议论文的一种，大部分的分析报告还是适用总-分-(总)的结构。推荐学习金字塔原理，中心思想明确，结论先行，以上统下，归类分组，逻辑递进。行文结构先重要后...

2024-01-05 19:16:43 84

转载实时数仓行业方案！

企业为什么需要实时数据仓库传统意义上的数据仓库主要处理T+1数据，即今天产生的数据分析结果明天才能看到，T+1的概念来源于股票交易，是一种股票交易制度，即当日买进的股票要到下一个交易日才能卖出。随着互联网以及很多行业线上业务的快速发展，让数据体量以前所未有的速度增长，数据时效性在企业运营中的重要性日益凸现，企业对海量数据的处理有了更高要求，如非结构化数据处理、快速批处理、实时数据处理、全量数据挖掘...

2024-01-03 21:30:39 54

转载 SeaTunnel 与 DataX 、Sqoop、Flume、Flink CDC 对比

产品概述Apache SeaTunnel 是一个非常易用的超高性能分布式数据集成产品，支持海量数据的离线及实时同步。每天可稳定高效同步万亿级数据，已应用于数百家企业生产，也是首个由国人主导贡献到 Apache 基金会的数据集成顶级项目。SeaTunnel 主要解决数据集成领域的常见问题：*数据源多样：常用的数据源有数百种，版本不兼容。随着新技术的出现，出现了更多的数据源。用户很难找到能够全面快速...

2023-12-28 08:30:39 335

转载元数据管理与数据血缘

什么是元数据？元数据MetaData狭义的解释是用来描述数据的数据，广义的来看，除了业务逻辑直接读写处理的那些业务数据，所有其它用来维持整个系统运转所需的信息／数据都可以叫作元数据。比如数据表格的Schema信息，任务的血缘关系，用户和脚本／任务的权限映射关系信息等等。管理这些附加MetaData信息的目的，一方面是为了让用户能够更高效的挖掘和使用数据，另一方面是为了让平台管理人员能更加有效的做好...

2023-12-26 08:00:44 76

转载 Hudi 在 vivo 湖仓一体的落地实践

作者：vivo 互联网大数据团队 - Xu Y一、Hudi 基础能力及相关概念介绍1.1 流批同源能力与Hive不同，Hudi数据在Spark/Flink写入后，下游可以继续使用Spark/Flink引擎以流读的形式实时读取数据。同一份Hudi数据源既可以批读也支持流读。Flink、Hive、Spark的流转批架构：Hudi流批同源架构：1.2 COW和MOR的概念Hudi支持COW（Copy O...

2023-12-18 19:06:40 126

空空如也

空空如也