自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

大数据星球-浪尖

主要分享Spark使用及源码,spark 机器学习,图计算,同时会涉及到,如:hadoop,Hbase,Hive,Kafka。保证文章质量,给大家提供一个好的知识分享平台。

  • 博客(41)
  • 收藏
  • 关注

转载 干货分享 | 万字讲解Kafka 从基础到高级(附图讲解)

1、为什么有消息系统解耦合异步处理例如电商平台,秒杀活动。一般流程会分为:1: 风险控制、2:库存锁定、3:生成订单、4:短信通知、5:更新数据通过消息系统将秒杀活动业务拆分开,将不急需...

2021-05-31 16:21:45 211

转载 Flink 在有赞的实践和应用

摘要:今天主要分享的内容是 Flink 在有赞的实践和应用。内容包括:Flink 的容器化改造和实践Flink SQL 的实践和应用未来规划一、Flink 的容器化改造和实践1. 有赞的集...

2021-05-31 16:21:45 159

转载 SQL实现数据质量DQC实践

Data Observability in Practice Using SQL1.前言在本系列文章中,我们会介绍如何从0到1做DQC。数据可能由于很多原因而出现错误,比如数据重复,sch...

2021-05-30 10:18:57 2179

转载 主流分布式文件系统对比

一、概述分布式文件系统是分布式领域的一个基础应用,其中最著名的毫无疑问是 HDFS/GFS。如今该领域已经趋向于成熟,但了解它的设计要点和思想,对我们将来面临类似场景/问题时,具有借鉴意义...

2021-05-30 10:18:57 231

转载 数据指标体系建设方法

01数据数据是指未经过处理的原始记录。数据的本质是利用数学观察、记录、理解世界;数据分析的过程就是人类从定性到定量、模糊到精准过程。大家都喜欢看数据,而不是通过一堆的文字、现象进行决策判断...

2021-05-28 09:00:00 978

转载 Doris or ClickHouse?大数据多维分析架构峰会为您揭秘!

2021年5月29日,9:00-18:50,DataFunSummit——多维分析架构峰会将如约而至,本次峰会由2位主席和10位出品人精心策划而来,邀请来自业界的50余位嘉宾从多维分析的核...

2021-05-28 09:00:00 343

转载 漫说数据湖——如何建湖?如何做数据ETL?为什么大数据需要数据湖?

作者|友创云天来源|http://t.hk.uy/bt5数据湖概述数据湖这一概念,最早是在2011年由CITO Research网站的CTO和作家Dan Woods首次提出。其比喻是:如...

2021-05-27 09:00:00 297

转载 基于区块链治理数据,大数据治理的新思路

作者丨孟小峰、刘立新全文共5610个字,建议阅读需15分钟当下,大数据的“堰塞湖”已经形成,数据治理问题迫在眉睫。传统的治理概念来自政府、企业、IT领域,数据治理既有其一般性,也有其特殊性...

2021-05-26 09:00:00 936

转载 JAVA锁优化和膨胀过程

HotSpot虚拟机开发团队在这个版本上花费了大量的精力去实现各种锁优化技术,如适应性自旋(Adaptive Spinning)、锁削除(Lock Elimination)、锁膨胀(Loc...

2021-05-25 08:30:00 93

转载 Oceanus的实时流式计算实践与优化

导语|随着互联网场景的不断深化发展,业务实时化趋势越来越强,要求也越来越高。特别是在广告推荐、实时大屏监控、实时风控、实时数仓等各业务领域,实时计算已经成为了不可或缺的一环。在大数据技...

2021-05-24 08:30:00 334

转载 谈谈双活业务中心和异地容灾备份设计

今天谈下多数据中心和异地容灾备份方面的内容。在前面一篇文章里面我详细谈到过一个软件业务系统的高可用性设计,其中既包括了IT基础设施的高可用,也包括了业务软件系统设计方面的高可用性设计。对于...

2021-05-24 08:30:00 1206

转载 实时数仓建设思考与方案记录

前言随着我司业务飞速增长,实时数仓的建设已经提上了日程。虽然还没有正式开始实施,但是汲取前人的经验,做好万全的准备总是必要的。本文简单松散地记录一下想法,不涉及维度建模方法论的事情(这个就...

2021-05-23 09:41:08 401

转载 关于构建与优化数据仓库架构与模型设计

技术架构选型数仓分层数据模型层次调用规范https://help.aliyun.com/document_detail/154238.html技术架构选型教程本身是以阿里云MaxComp...

2021-05-22 09:18:00 368

转载 对 Kafka 和 Pulsar 进行性能测试后,拉卡拉将消息平台统一换成了 Pulsar

拉卡拉支付成立于 2005 年,是国内领先的第三方支付企业,致力于整合信息科技,服务线下实体,从支付切入,全维度为中小微商户的经营赋能。2011 年成为首批获得《支付业务许可证》企业的一员...

2021-05-21 14:33:34 123

转载 Spark调优 | 不可避免的 Join 优化

SparkSQL总体流程介绍在阐述Join实现之前,我们首先简单介绍SparkSQL的总体流程,一般地,我们有两种方式使用SparkSQL,一种是直接写sql语句,这个需要有元数据库支持,...

2021-05-20 09:00:00 1805

转载 同样嗑B站6个月,被室友吊打 35K Offer!

问你个问题:作为码农,你第一份工作能拿到多少K月薪?我猜你肯定会说,得看个人能力。没错,但我得补充一条,更重要的是工种!最近成功跳槽到字节,终面谈好35K,而且是18薪,终于拿到了人生的第...

2021-05-19 09:30:00 265

转载 Hbase、Kudu 和 ClickHouse 全视角对比

- 前言 -Hadoop生态圈的技术繁多。HDFS一直用来保存底层数据,地位牢固。Hbase作为一款Nosql也是Hadoop生态圈的核心组件,它海量的存储能力,优秀的随机...

2021-05-19 09:30:00 251

转载 美团配送数据治理实践

今天,数据资产日益成为企业的核心竞争力。但如果企业在走向数字化过程中遗忘了数据治理,可能再多的投入都会变成一种“徒劳”。今天的文章来自美团配送数据治理团队,他们从数据治理的概念、达成的目标...

2021-05-18 09:00:00 232

转载 Java线程池实现原理及其在美团业务中的实践

随着计算机行业的飞速发展,摩尔定律逐渐失效,多核CPU成为主流。使用多线程并行计算逐渐成为开发人员提升服务器性能的基本武器。J.U.C提供的线程池ThreadPoolExecutor类,帮...

2021-05-17 09:00:00 127

转载 设计模式在外卖营销业务中的实践

业务策略多变导致需求多变,是业界很多技术团队面临的最具挑战的问题之一。那么如何设计一套易于扩展和维护的营销系统呢?今天的文章来自美团外卖营销技术团队,他们分享了从领域模型到代码工程之间的转...

2021-05-16 09:24:39 159

转载 分布式架构演进总结

一、前言  随着社会的发展,技术的进步,以前的大型机架构很显然由于高成本、难维护等原因渐渐地变得不再那么主流了,替代它的就是当下最火的分布式架构,从大型机到分布式,经历了好几个阶段,我们弄...

2021-05-16 09:24:39 131

转载 MQ消息中间件,面试能问写什么?

来自:blog.csdn.net/qq_29676623/article/details/85108070为什么使用消息队列?消息队列的优点和缺点?kafka、activemq、rabbi...

2021-05-15 09:38:51 146

转载 零基础想学大数据?你需要这个完整学习路线

关于大数据,有句话说的很好:“未来的商业竞争,就是数据的竞争。”实际上也确是如此,从电商的“猜你喜欢”到“防疫健康码”;从 AI 智能识别花草树木,到产生辅助诊疗建议;从无人商店到无人驾...

2021-05-14 09:00:00 229

转载 美团外卖流量数据的采集加工和应用

导读:本文介绍了美团外卖流量数据采集、流量数仓的建设以及典型的流量数据应用,其中重点介绍了流量数仓建设过程、在建设过程中需要关注的问题以及对应的解决方案。01流量数据采集1. 美团外卖流量...

2021-05-14 09:00:00 1757

转载 Pulsar,做大数据一定要牢牢掌握的世界级产品!

提起成熟的消息队列,毋庸置疑,大多数人的第一反应一定是 Kafka。Kafka 作为一款明星级产品,能够彻底满足海量数据场景下高吞吐、高并发需求,在短短几年内,已经被阿里、腾讯、百度、字节...

2021-05-13 09:00:00 363

转载 Redis、Kafka 和 Pulsar 消息队列对比

导语 |市面上有非常多的消息中间件,rabbitMQ、kafka、rocketMQ、pulsar、 redis等等,多得令人眼花缭乱。它们到底有什么异同,你应该选哪个?本文尝试通过技术演...

2021-05-13 09:00:00 137

转载 大白话认识 Kafka 背后优秀的架构设计

作者:说出你的愿望吧来源:https://juejin.cn/post/6844903999066341384一、Kafka基础消息系统的作用应该大部份小伙伴都清楚,用机油装箱举个例子所以...

2021-05-12 09:00:00 88

转载 final关键字的这8个小细节,你get到几个?

前言今天来聊 final 关键字,因为最近在看的几本书都讲到了 final 关键字,发现好多小细节自己都忽视了,抽空总结了一下,分享给大家。正文final关键字是一个常用的关键字,可以修饰...

2021-05-11 09:00:00 93

转载 HDFS+Clickhouse+Spark:从0到1实现一款轻量级大数据分析系统

导语 | 在产品精细化运营时代,经常会遇到产品增长问题:比如指标涨跌原因分析、版本迭代效果分析、运营活动效果分析等。这一类分析问题高频且具有较高时效性要求,然而在人力资源紧张情况,传统的数...

2021-05-11 09:00:00 394 1

转载 阿里云DataWorks学习——数仓架构设计

(一)技术架构选型在数据模型设计之前,您需要首先完成技术架构的选型。本教程中使用阿里云大数据产品MaxCompute配合DataWorks,完成整体的数据建模和研发流程。完整的技术架构图如...

2021-05-10 09:00:00 1162

转载 鹅厂优文 |如何在万亿级别规模的数据量上使用Spark

作者:张国鹏 | 腾讯 运营开发工程师前言Spark作为大数据计算引擎,凭借其快速、稳定、简易等特点,快速的占领了大数据计算的领域。本文主要为作者在搭建使用计算平台的过程中,对于Spark...

2021-05-09 09:47:27 272

转载 Redis 进阶笔记

导语 | Redis 大家用的不少,但是我们大多数人可能都只是关注业务本身,对于底层的细节则经常忽略,久而久之,对个人的成长帮助甚少。本文为大家总结了关于 Redis 常见用法的进阶指南,...

2021-05-09 09:47:27 153

转载 快速理解 Java 静态代理 / 动态代理

理解Java动态代理需要对Java的反射机制有一定了解什么是代理模式在有些情况下,一个客户不能或者不想直接访问另一个对象,这时需要找一个中介帮忙完成某项任务,这个中介就是代理对象。例如,购...

2021-05-08 14:30:17 112

转载 金融行业大数据治理之路——数据模型篇

本文概要本文以证券期货行业数据模型(Securities Data ObjectModel,简称SDOM)为指导依据,介绍如何通过网易模型设计中心(EasyDesign)进行行业模型的规范...

2021-05-08 14:30:17 3081

转载 京东OLAP实践之路

导读:本文主要介绍京东在构建OLAP从无到有各环节考虑的重点,由需求场景出发,剖析当前存在的问题,并提供解决方案,最后介绍OLAP的发展过程。▌需求场景1. 京东数据入口① 业务数据:订单...

2021-05-07 09:00:00 288

转载 优酷大数据 OLAP 技术选型

导读:数据驱动的方法论已深入人心,无论是开发、产品还是运营,根据数据进行决策是必备环节。你是否好奇过,在优酷这样海量数据的场景下,是什么样的引擎在支撑着业务上林林总总的分析需求?大数据领域...

2021-05-06 08:18:41 420

转载 如何构建与优化数据仓库架构与模型设计?

构建与优化数据仓库·架构与模型设计--阿里云教程技术架构选型数仓分层数据模型层次调用规范https://help.aliyun.com/document_detail/154238.htm...

2021-05-05 11:03:49 255

转载 关于中台的深度思考和中台实战

围绕中台的争议非常多,但是往往争议的原因是连中台这个概念都完全没有达成共识,可以说是毫无意义的争吵。在 12 月 20 日由极客邦科技举办的 QCon 全球软件开发大会 2020(上海站)...

2021-05-04 09:04:24 1263

转载 【PPT 下载】Apache Kylin 在中通快递的实践

摘要·Apache Kylin 在中通是如何落地的,又是怎样赋能中通快递实现 OLAP 分析能力起飞的?本文从多方面对比了 Presto 和 Kylin 的优缺点,并从业务场景、调度整...

2021-05-03 11:34:56 192

转载 Apache Kylin 在贝壳找房指标体系的应用

引言“贝壳找房在做的就是推动居住服务这个传统行业进行深度的互联网化,在这个过程中数据是非常重要的支撑。”——张如松,贝壳找房数据平台高级工程师近日,Apache Kylin 5 周年在线庆...

2021-05-02 08:38:30 509

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除