自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

大数据星球-浪尖

主要分享Spark使用及源码,spark 机器学习,图计算,同时会涉及到,如:hadoop,Hbase,Hive,Kafka。保证文章质量,给大家提供一个好的知识分享平台。

  • 博客(34)
  • 收藏
  • 关注

原创 如何Spark的shuffle移植到自己业务

1.ExternalSorter简介ExternalSorter是用来排序及聚合key-value类型的数据。首先使用分区器将数据按照key进行分区,然后使用自定义的排序器在一个分区内对...

2020-04-30 00:04:43 225

转载 因用了Insert into select语句,同事被开除了!

“ Insert into select 请慎用,同事因为使用了 Insert into select 语句引发了重大生产事故,最后被开除。图片来自 Pexels某天 xxx 接到一个需...

2020-04-30 00:04:43 5073 1

转载 6.scala元组

在 Scala 中,元组是一个可以容纳不同类型元素的类。元组是不可变的。当我们需要从函数返回多个值时,元组会派上用场。元组可以创建如下:valingredient=("Su...

2020-04-29 00:02:30 285

转载 Apache Flink 与 Apache Hive 的集成

分享嘉宾:李锐&王刚 @ 阿里巴巴编辑整理:于广超内容来源:FlinkForward ASIA出品平台:DataFun注:欢迎转载,转载请留言。导读:随着 Flink 在流式...

2020-04-29 00:02:30 446

转载 中国IT行业薪资:与销售相比,程序员真得很“穷”

来自:云头条近期各大IT公司发布《2019年年报报告》,今天整理了部分公司销售与研发的平均薪酬数据,发现研发薪资比销售低很多。以下为详细信息,供大家参考。如果信息有误,欢迎指正。360...

2020-04-28 00:05:56 556

转载 必须了解的实时数据架构

随着互联网的发展进入下半场,数据的时效性对企业的精细化运营越来越重要, 商场如战场,在每天产生的海量数据中,如何能实时有效的挖掘出有价值的信息, 对企业的决策运营策略调整有很大帮助。此外...

2020-04-28 00:05:56 1066

原创 spark on yarn 内存分配详解

最近有不少知识星球粉丝和公众号粉丝给浪尖留言,说是不知道spark on yarn的时候,yarn如何分配Spark 的driver和executor内存的。今天浪尖就给大家分享一下sp...

2020-04-27 00:01:31 668

原创 必知|Scala类型层次结构

java的除了原始类型的所有类都有一个默认的父类Object,那么scala的统一父类是什么呢?这个是有人在群里问浪尖的一个问题,今天浪尖就给大家讲解一下Scala类型层次结构在Scal...

2020-04-27 00:01:31 1485

转载 太简单了,教你去掉Java代码中烦人的“!=null”

译者:lizeyang来源:blog.csdn.net/lizeyang/article/details/40040817问题为了避免空指针调用,我们经常会看到这样的语句if (some...

2020-04-26 00:03:25 244

转载 滴滴 3000+ Kylin Cube 背后的实践经验揭秘

本次分享主要有三个部分:Kylin 在滴滴的整体应用、架构的实践经验、滴滴全局字典最新版本的实现以及 Kylin 最新实时 OLAP 探索经验分享。Kylin 在滴滴的应用&架构...

2020-04-26 00:03:25 572

转载 YYYY-MM-DD 的黑锅,我们不背!

作者:兔子托尼啊https://zhuanlan.zhihu.com/p/101150248写这篇博文是记录下跨年的bug。去年隔壁组的小伙伴就是计算两个日期之间间隔的天数,因为跨年的原...

2020-04-25 00:00:40 258

转载 理解Apache Pulsar工作原理

译者:李鹏辉在这篇文章中,我们将介绍Apache Pulsar的设计,这篇文章不适合想要了解如何使用Apache Pulsar的读者,适合想要了解Apache Pulsar是如何工作的读...

2020-04-25 00:00:40 1267

原创 Curator实现基于zookeeper leader选举

一,基本介绍Curator Framework是一个针对zookeeper做的搞层次的API,极大地简化了zookeeper的使用。它基于zookeeper构建了很多功能,处理复杂的链接...

2020-04-24 00:03:43 260

转载 基于Hadoop的58同城离线计算平台设计与实践

分享嘉宾:余意 58同城高级架构师编辑整理:史士博内容来源:58大数据系列直播出品平台:DataFun注:欢迎转载,转载请在留言区留言。导读:58离线计算平台基于 Hadoop 生态体...

2020-04-24 00:03:43 414

转载 趣头条基于 Flink+ClickHouse 构建实时数据分析平台

摘要:本文由趣头条数据平台负责人王金海分享,主要介绍趣头条 Flink-to-Hive 小时级场景和 Flink-to-ClickHouse 秒级场景,内容分为以下四部分:一、业务场景与...

2020-04-23 00:03:21 564

转载 2020年4月程序员工资统计,人工智能工资大跌

来自:CSDN,作者:有数可据链接:https://blog.csdn.net/juwikuang/article/details/105256285最近看到一网友分享程序员4月份工资,...

2020-04-23 00:03:21 240

转载 JVM 发生 OOM 的 8 种原因、及解决办法

本文转自:www.importnew.com/author/tangyouhua1. Java 堆空间发生频率:5颗星造成原因无法在 Java 堆中分配对象吞吐量增加应用程序无意中保存了...

2020-04-22 00:09:55 192

转载 RabbitMQ和Kafka的比较

导言作为一个有丰富经验的微服务系统架构师,经常有人问我,“应该选择RabbitMQ还是Kafka?”。基于某些原因, 许多开发者会把这两种技术当做等价的来看待。的确,在一些案例场景下选择...

2020-04-22 00:09:55 465

转载 “为什么你们开发这么慢?” 3页ppt讲透:帕金森定律,低效正在杀死你的团队!...

作者|Mr.K 编辑| Emma来源|技术领导力(ID:jishulingdaoli)开发团队经常被业务方吐槽:“为什么你们开发这么慢?你看谁谁谁家,就几个开发人员,今天提的需求...

2020-04-21 00:02:48 232

转载 Google 是如何做 Code Review 的?

作者|帅昕 xindoo责编 | 屠敏来源 | CSDN 博客我和几个小伙伴一起翻译了Google前一段时间放出来的Google’s Engineering Practices ...

2020-04-21 00:02:48 249

转载 OPPO 实时数仓揭秘:从顶层设计实现离线与实时的平滑迁移

摘要:单日总数据处理量超 10 万亿,峰值大概超过每秒 3 亿,OPPO 大数据平台研发负责人张俊揭秘 OPPO 基于 Apache Flink 构建实时数仓的实践,内容分为以下四个方面...

2020-04-20 00:00:00 305

转载 Java 性能优化的 45 个细节

来源:网络,原始作者未知。如有知晓的朋友,请留言。在JAVA程序中,性能问题的大部分原因并不在于JAVA语言,而是程序本身。养成良好的编码习惯非常重要,能够显著地提升程序性能。1. 尽量...

2020-04-19 00:19:40 134

原创 java实操|mysql数据增量同步到kafka

一,架构介绍生产中由于历史原因web后端,mysql集群,kafka集群(或者其它消息队列)会存在一下三种结构。1,数据先入mysql集群,再入kafka数据入mysql集群是不可更改的...

2020-04-17 08:00:00 961 1

原创 获取yarn上APP的状态案例

在星球里和微信群里很多朋友都有疑惑,如何监控 yarn 上 spark 或者 mr 应用的存活状态,浪尖今天在这里分享一下实现方法,实际上只需要简单的几行代码即可。首先是,pom文件,...

2020-04-13 12:21:06 1198 1

原创 Spark读写XML文件及注意事项

最近有粉丝问浪尖spark 如何读写xml格式的文件,尤其是嵌套型的,spark本身是不支持xml格式文件读取的,但是databricks开源了一个jar,支持xml文件的读写,浪尖这...

2020-04-12 21:34:17 2884 2

转载 【开发实践】美团为什么开发 Kylin On Druid(下)?

前言在上篇文章里,我们比较了 Kylin 和 Druid 这两个重要的 OLAP引擎的特点,也分析了 Kylin on HBase 的不足,得出了使用 Druid 代替 HBase 作...

2020-04-11 23:17:31 177

转载 【开发实践】美团为什么开发 Kylin On Druid(上)?

前言在大数据分析领域,Apache Kylin 和 Apache Druid (incubating) 是两个普遍使用的 OLAP 引擎,都具有支持在超大数据上进行快速查询的能力。在一...

2020-04-11 23:17:31 329

转载 高效开发:IntelliJ IDEA天天用,这些Debug技巧你都知道?

来源:https://www.aneasystone.com/在软件开发的过程中,可以说调试是一项基本技能。调试的英文单词为 debug ,顾名思义,就是去除 bug 的意思。俗话说的...

2020-04-09 19:01:06 218

转载 什么是Code Review_Java_阳光岛主-CSDN博客

有人问到codereview相关内容。浪尖找了一篇不错的文章,给大家借鉴一下。但是code review不要吹毛求疵哦~https://blog.csdn.net/ithomer/ar...

2020-04-08 23:38:27 607

转载 探究与解决YARN Container分配过于集中的问题

最近至少有两个粉丝在问浪尖为啥自己资源充足yarn还会将spark的executor集中分配到个别的nodemanager的问题,浪尖起初只是给出了一个参数yarn.scheduler...

2020-04-07 23:44:53 689

转载 Google 之 Java 编码规范

编辑:可可(技术新干线)来源:https://google.github.io/styleguide/javaguide.htmlGoogle官方的Java编程风格规范。与其它的编程风...

2020-04-06 21:21:53 161

原创 浪尖的学习历程

今天,刷抖音,被武汉医生和护士志愿者感动,被各个城市为迎接返程英雄的阵仗感动,感觉这样的人民,这样的祖国,不强大没天理了!言归正传,今天主要是分享一下浪尖的学习方法和学习经历吧,主...

2020-04-05 00:43:19 593 1

原创 浪尖说spark的coalesce的利弊及原理

浪尖的粉丝应该很久没见浪尖发过spark源码解读的文章,今天浪尖在这里给大家分享一篇文章,帮助大家进一步理解rdd如何在spark中被计算的,同时解释一下coalesce降低分区的原理...

2020-04-02 23:19:36 1370

转载 有前途的程序员的14个习惯,你有几个?

作者:∑Gemini来自:伯乐在线慎于说Yes在没有搞清楚开发需求、任务工作量、团队期望值之前,有前途的程序员不会轻易答应。特别是对于新人来说,比较急于表现自己,对于同事或者老板的工作...

2020-04-01 23:40:19 164

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除