自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

大数据星球-浪尖

主要分享Spark使用及源码,spark 机器学习,图计算,同时会涉及到,如:hadoop,Hbase,Hive,Kafka。保证文章质量,给大家提供一个好的知识分享平台。

  • 博客(45)
  • 收藏
  • 关注

转载 干货 | 优秀的数据敏感度应该如何培养?

大家有没有特别羡慕和害怕过这种人,他能一眼看出你做的PPT里面的数据异常,随时能提出一个数据证明你的小结论有问题,然后以一个数据问题迅速推翻你整个报告的结论,结果就是你做了整整一个月的分...

2021-01-31 17:30:00 690 1

转载 用户留存分析案例 | 以京东、淘宝、饿了么为例!

我们把完成激活并在一段时间内继续进行使用、浏览、或者购买等关键行为的用户叫做留存用户。我们在做用户增长往往重视了获客,而容易忽略留存。就算我们获取的用户很多,如果留存差,当流失的用户大于...

2021-01-31 17:30:00 2502

转载 「数据分析报告」思路提升超实用指南!

勇敢乌龟 | 作者知乎专栏 |来源在处理了数据以后就要开始进行报告的撰写,写报告会涉及到几个部分的工作,这里分别进行介绍一下:1. 报告结构一篇数据分析报告的结构是十分重要的,一个好的...

2021-01-30 21:00:00 321

转载 干货 | 基于 Python 的信用评分模型实战!

来源 | 知乎作者 |Carl文章链接 |https://zhuanlan.zhihu.com/p/35284849信用评分模型可用“四张卡”来表示,分别是 A卡(Applica...

2021-01-30 21:00:00 1245

转载 稀疏索引与其在Kafka和ClickHouse中的应用

Sparse Index在以数据库为代表的存储系统中,索引(index)是一种附加于原始数据之上的数据结构,能够通过减少磁盘访问来提升查询速度,与现实中的书籍目录异曲同工。索引通常包含...

2021-01-29 09:00:00 482 1

转载 代码中大量的if/else,你有什么优化方案?

来源:https://www.zhihu.com/question/344856665观点一(灵剑):前期迭代懒得优化,来一个需求,加一个if,久而久之,就串成了一座金字塔。当代码已经复...

2021-01-28 11:40:00 141

转载 网易基于Filebeat的日志采集服务设计与实践

- 背景 -云原生技术大潮已经来临,技术变革迫在眉睫。在这股技术潮流之中,网易推出了轻舟微服务平台,集成了微服务、Service Mesh、容器云、DevOps等组件,已经广泛应用于公...

2021-01-28 11:40:00 411

转载 金融数仓体系建设

导语本文讲述了金融数据仓库从无到有的整体设计思路,以及对数据建模、质量控制、元数据管理及开发规范各方面的经验思考,希望对大家在数仓建设工作方面有所帮助。背景自2018年以来,随着业务体系...

2021-01-27 11:40:00 1357

转载 分享 | 企业大数据平台仓库架构建设思路

本文根据阿里云高级技术专家李金波在首届阿里巴巴在线峰会的《企业大数据平台仓库架构建设思路》的分享整理而成。随着互联网规模不断的扩大,数据也在爆炸式地增长,各种结构化、半结构化、非结构化数...

2021-01-26 11:45:00 236

转载 常用的 JVM 性能调优监控工具,太强大了!

来源 |my.oschina.net/feichexia/blog/196575现实企业级Java开发中,有时候我们会碰到下面这些问题:OutOfMemoryError,内存不足内存泄...

2021-01-26 11:45:00 144

转载 实时数据仓库必备技术:Kafka知识梳理

为什么使用消息队列?•解耦•异步•削峰(1) 解耦现有系统A, B, C, 系统B和C需要系统A的数据, 然后我们就修改系统A的代码, 给系统B, C发送数据. 这时系统D也需要系统A的...

2021-01-25 09:10:31 287

转载 如何成为顶尖的“数据分析师”?10年前辈万字经验

转自:https://www.toutiao.com/i6873267140791632388/这几年越来越多的小伙伴涌入数据分析行业,呈现出井喷现象。每每有读者和学员问我如何转行、行业...

2021-01-24 16:54:22 515

转载 建立数据思维的13个实用思维工具

作者丨老树之见全文共3450个字,建议阅读需15分钟“拥有数据思维才能发现数据价值,企业数据的治理,“治”的不仅是数据,更是企业全员的思维模式!——谈数据(石秀峰)如何建立数据思维?今天...

2021-01-23 12:06:11 311

转载 数仓潮汐猎人 | 数据仓库企业数仓拉链表制作​

拉链表拉链表是针对数据仓库设计中表存储数据的方式而定义的,顾名思义,所谓拉链,就是记录历史。记录一个事物从开始,一直到当前状态的所有变化的信息。下面就是一张拉链表,存储的是用户的最基本信...

2021-01-22 11:50:00 139

转载 19 条 MySQL 技巧,效率至少提高 3倍!

来源:https://zhuanlan.zhihu.com/p/49888088本文我们来谈谈项目中常用的MySQL优化方法,共19条,具体如下:1、EXPLAIN做MySQL优化,我们...

2021-01-22 11:50:00 98

转载 工作 5 年,同事连 Java 日志体系都没搞懂!

作者:Alben's home来源:https://albenw.github.io/posts/854fc091/概要本文的目的是搞清楚Java中各种日志Log之间是怎么的关系...

2021-01-20 17:41:42 143

转载 从Lambda到无Lambda,领英吸取到的教训

作者 | Xiang Zhang、Jingyu Zhu策划 | TinaLambda 架构已经成为一种流行的架构风格,它通过使用批处理和流式处理的混合方法来保证数据处理的速度和准确性。但...

2021-01-20 17:41:42 140

转载 再谈双亲委派模型与Flink的类加载策略

作者:LittleMagic原文:https://www.jianshu.com/p/bc7309b03407类加载我们知道,在JVM中,一个类加载的过程大致分为加载、链接(验证、准备、...

2021-01-19 11:40:00 276 1

转载 6大常用数据分析模型详解

转自:https://www.toutiao.com/i6906745504798097933/在进行数据分析过程中,我们通常需要使用各种模型来证明自己的分析观点,使自己的结论更具备说服...

2021-01-19 11:40:00 3532

转载 醍醐灌顶 | 我们谈论的Exactly once到底是什么?

转自:https://juejin.cn/post/6844903857558913038英文原文:https://streaml.io/blog/exactly-once分布式事件流处...

2021-01-17 12:06:02 199

转载 干货,OLAP数仓从百万到百亿级数据量实时分析

一、有哪些类型的OLAP数仓?1.按数据量划分对一件事物或一个东西基于不同角度,可以进行多种分类方式。对数仓产品也一样。比如我们可以基于数据量来选择不同类型的数量,如下图所示:本系列文章...

2021-01-16 16:22:31 663

转载 Apache Doris在京东搜索实时OLAP中的应用实践

1、前言本文讨论了京东搜索在实时流量数据分析方面,利用Apache Flink和Apache Doris进行的探索和实践。流式计算在近些年的热度与日俱增,从Google Dataflow...

2021-01-15 11:41:00 287

转载 深入理解 RabbitMQ 的前世今生

关于RabbitMQ出身:诞生于金融行业的消息队列语言:Erlang协议:AMQP(Advanced Message Queuing Protocol 高级消息队列协议)关键词:内存队列...

2021-01-15 11:41:00 169

转载 浅淡 Apache Kylin 与 ClickHouse 的对比

作者简介 周耀,Kyligence 解决方案架构师,Apache Kylin、Apache Superset Contributor。Apache Kylin 和 ClickHouse ...

2021-01-14 09:00:00 482

转载 基于实际业务场景的几套超干指标体系!

Leo.yuan|作者CADN|来源转自:爱数据原统计网大家好,我是小z数据指标体系搭建方法论的干货文章已经非常多了,后台有粉丝反馈想要看一些实际业务场景下的指标体系案例,今天正好分享一...

2021-01-13 12:12:59 325

转载 字节跳动ClickHouse在用户增长分析场景的应用

业务背景:就是做用户增长,提升dau主要是通过使用clickhouse来挖掘数据,供业务决策,你的策略是否有效需要数据支持,数据驱动业务增长app新发版之后,发现dau下降,这时候...

2021-01-12 09:00:00 362

转载 推荐系统之标签体系

为什么要先介绍标签体系?一个推荐系统效果好与坏最基本的保障、最基础的是什么?如果让我来回答,一定是标签体系。我这里说的标签主要是针对物料的,对于电商平台来说就是商品;对于音乐平台来说就是...

2021-01-11 17:50:00 1922

转载 大数据kafka理论实操面试题

1、 请说明什么是Apache Kafka?Apache Kafka是由Apache开发的一种发布订阅消息系统,它是一个分布式的、分区的和重复的日志服务。2、 请说明什么是传统的消息传递...

2021-01-10 21:00:00 227

转载 【唯实践】基于Alluxio优化电商平台热点数据访问性能

点击蓝字丨关注我们背景概述在互联网电商平台上,广告是提升成交总额(Gross Merchandise Volume)和拉取新客的常见途经。在广告系统或广告运营中都需要基于人群数据分析进行...

2021-01-10 21:00:00 161 1

转载 Linux 系统 inodes 资源耗尽,如何解决?

inodes介绍Linux系统下文件数据储存在"块"中,文件的元信息,例如文件的创建者、文件的创建日期、文件的大小等。这种储存文件元信息的区域就叫做inode,中文译名为...

2021-01-09 11:00:00 459

转载 如何构建数据分析框架?分享3个底层思维框架,小白也能看懂

a数据分析不仅是一个岗位名称,也是一项通用的职场技能。“数据调研”、“数据监控”、“数据复盘”、“数据总结”、“数据驱动业务”…… 都是贯穿我们互联网人日常工作的高频词汇。处处需要数据佐...

2021-01-09 11:00:00 1950

转载 到底要刷多少道算法题面试才稳?

在国外 Facebook,Google 等互联网巨头中,算法无疑是面试中的重头戏,不过,在最近几年国内互联网大厂面试中,算法的比重也越来越高,算法不扎实,笔试可能就直接被刷了。那你知道大...

2021-01-08 08:53:23 185

转载 全面解析 52 条 SQL 语句性能优化策略,建议收藏!

- 前言 -本文将全面揭秘 SQL 语句性能优化策略,直接上干货!- 52 条 SQL 语句性能优化策略 -1、对查询进行优化,应尽量避免全表扫描,首先应...

2021-01-08 08:53:23 127

转载 深渊之刃 | Greenplum数据库之拉链表的实现

历史拉链表是一种数据模型,主要是针对数据仓库设计中表存储数据的方式而定义的;顾名思义,所谓历史拉链表,就是记录一个事务从开始一直到当前状态的所有变化的信息,拉链表可以避免按每一天存储所有...

2021-01-07 18:00:00 247

转载 漫谈千亿级数据优化实践:数据倾斜

0x00 前言数据倾斜是大数据领域绕不开的拦路虎,当你所需处理的数据量到达了上亿甚至是千亿条的时候,数据倾斜将是横在你面前一道巨大的坎。迈的过去,将会海阔天空!迈不过去,就要做好准备:很...

2021-01-07 18:00:00 172

转载 Shell脚本实战:日志关键字监控+自动告警

来自:今日头条,作者:运维之道中道链接:https://www.toutiao.com/a6770513931053040131该程序使用场景说明:主要用于Linux服务器监控程序日志,...

2021-01-06 09:00:00 914

转载 2021年软件开发的七大趋势

据数据统计,整个全球目前已有超过 17.4 亿个网站。随着时间的发展,Web开发变得更加具有创新性,具体将有如下之七大趋势:渐进式Web应用程序渐进式Web应用程序(PWA-Progre...

2021-01-05 18:00:00 704

转载 58基于Flink构建实时数仓实践

导读随着公司用户增长业务快速发展,陆续孵化出 部落、同镇、C 端会员、游戏等非常多的业务板块。与此同时产品及运营对实时数据需求逐渐增多,帮助他们更快的做出决策,更好的进行产品迭代,实时数...

2021-01-05 18:00:00 517

转载 数据库范式的理解

第一范式(1NF)无重复的列1NF的定义为:符合1NF的关系中的每个属性都不可再分所谓第一范式(1NF)是指数据库表的每一列都是不可分割的基本数据项,同一列中不能有多个值,即实体中的某个...

2021-01-04 12:00:00 628

转载 每个大数据工程师都应该知道的OLAP 核心知识点

OLAP 系统广泛应用于 BI, Reporting, Ad-hoc, ETL 数仓分析等场景,本文主要从体系化的角度来分析 OLAP 系统的核心技术点,从业界已有的 OLAP 中萃取其...

2021-01-03 11:56:57 497

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除