- 博客(34)
- 收藏
- 关注
原创 如何Spark的shuffle移植到自己业务
1.ExternalSorter简介ExternalSorter是用来排序及聚合key-value类型的数据。首先使用分区器将数据按照key进行分区,然后使用自定义的排序器在一个分区内对...
2020-04-30 00:04:43 243
转载 因用了Insert into select语句,同事被开除了!
“ Insert into select 请慎用,同事因为使用了 Insert into select 语句引发了重大生产事故,最后被开除。图片来自 Pexels某天 xxx 接到一个需...
2020-04-30 00:04:43 5115 1
转载 6.scala元组
在 Scala 中,元组是一个可以容纳不同类型元素的类。元组是不可变的。当我们需要从函数返回多个值时,元组会派上用场。元组可以创建如下:valingredient=("Su...
2020-04-29 00:02:30 304
转载 Apache Flink 与 Apache Hive 的集成
分享嘉宾:李锐&王刚 @ 阿里巴巴编辑整理:于广超内容来源:FlinkForward ASIA出品平台:DataFun注:欢迎转载,转载请留言。导读:随着 Flink 在流式...
2020-04-29 00:02:30 471
转载 中国IT行业薪资:与销售相比,程序员真得很“穷”
来自:云头条近期各大IT公司发布《2019年年报报告》,今天整理了部分公司销售与研发的平均薪酬数据,发现研发薪资比销售低很多。以下为详细信息,供大家参考。如果信息有误,欢迎指正。360...
2020-04-28 00:05:56 595
转载 必须了解的实时数据架构
随着互联网的发展进入下半场,数据的时效性对企业的精细化运营越来越重要, 商场如战场,在每天产生的海量数据中,如何能实时有效的挖掘出有价值的信息, 对企业的决策运营策略调整有很大帮助。此外...
2020-04-28 00:05:56 1131
原创 spark on yarn 内存分配详解
最近有不少知识星球粉丝和公众号粉丝给浪尖留言,说是不知道spark on yarn的时候,yarn如何分配Spark 的driver和executor内存的。今天浪尖就给大家分享一下sp...
2020-04-27 00:01:31 692
原创 必知|Scala类型层次结构
java的除了原始类型的所有类都有一个默认的父类Object,那么scala的统一父类是什么呢?这个是有人在群里问浪尖的一个问题,今天浪尖就给大家讲解一下Scala类型层次结构在Scal...
2020-04-27 00:01:31 1551
转载 太简单了,教你去掉Java代码中烦人的“!=null”
译者:lizeyang来源:blog.csdn.net/lizeyang/article/details/40040817问题为了避免空指针调用,我们经常会看到这样的语句if (some...
2020-04-26 00:03:25 264
转载 滴滴 3000+ Kylin Cube 背后的实践经验揭秘
本次分享主要有三个部分:Kylin 在滴滴的整体应用、架构的实践经验、滴滴全局字典最新版本的实现以及 Kylin 最新实时 OLAP 探索经验分享。Kylin 在滴滴的应用&架构...
2020-04-26 00:03:25 596
转载 YYYY-MM-DD 的黑锅,我们不背!
作者:兔子托尼啊https://zhuanlan.zhihu.com/p/101150248写这篇博文是记录下跨年的bug。去年隔壁组的小伙伴就是计算两个日期之间间隔的天数,因为跨年的原...
2020-04-25 00:00:40 281
转载 理解Apache Pulsar工作原理
译者:李鹏辉在这篇文章中,我们将介绍Apache Pulsar的设计,这篇文章不适合想要了解如何使用Apache Pulsar的读者,适合想要了解Apache Pulsar是如何工作的读...
2020-04-25 00:00:40 1294
原创 Curator实现基于zookeeper leader选举
一,基本介绍Curator Framework是一个针对zookeeper做的搞层次的API,极大地简化了zookeeper的使用。它基于zookeeper构建了很多功能,处理复杂的链接...
2020-04-24 00:03:43 276
转载 基于Hadoop的58同城离线计算平台设计与实践
分享嘉宾:余意 58同城高级架构师编辑整理:史士博内容来源:58大数据系列直播出品平台:DataFun注:欢迎转载,转载请在留言区留言。导读:58离线计算平台基于 Hadoop 生态体...
2020-04-24 00:03:43 433
转载 趣头条基于 Flink+ClickHouse 构建实时数据分析平台
摘要:本文由趣头条数据平台负责人王金海分享,主要介绍趣头条 Flink-to-Hive 小时级场景和 Flink-to-ClickHouse 秒级场景,内容分为以下四部分:一、业务场景与...
2020-04-23 00:03:21 588
转载 2020年4月程序员工资统计,人工智能工资大跌
来自:CSDN,作者:有数可据链接:https://blog.csdn.net/juwikuang/article/details/105256285最近看到一网友分享程序员4月份工资,...
2020-04-23 00:03:21 250
转载 JVM 发生 OOM 的 8 种原因、及解决办法
本文转自:www.importnew.com/author/tangyouhua1. Java 堆空间发生频率:5颗星造成原因无法在 Java 堆中分配对象吞吐量增加应用程序无意中保存了...
2020-04-22 00:09:55 207
转载 RabbitMQ和Kafka的比较
导言作为一个有丰富经验的微服务系统架构师,经常有人问我,“应该选择RabbitMQ还是Kafka?”。基于某些原因, 许多开发者会把这两种技术当做等价的来看待。的确,在一些案例场景下选择...
2020-04-22 00:09:55 480
转载 “为什么你们开发这么慢?” 3页ppt讲透:帕金森定律,低效正在杀死你的团队!...
作者|Mr.K 编辑| Emma来源|技术领导力(ID:jishulingdaoli)开发团队经常被业务方吐槽:“为什么你们开发这么慢?你看谁谁谁家,就几个开发人员,今天提的需求...
2020-04-21 00:02:48 256
转载 Google 是如何做 Code Review 的?
作者|帅昕 xindoo责编 | 屠敏来源 | CSDN 博客我和几个小伙伴一起翻译了Google前一段时间放出来的Google’s Engineering Practices ...
2020-04-21 00:02:48 268
转载 OPPO 实时数仓揭秘:从顶层设计实现离线与实时的平滑迁移
摘要:单日总数据处理量超 10 万亿,峰值大概超过每秒 3 亿,OPPO 大数据平台研发负责人张俊揭秘 OPPO 基于 Apache Flink 构建实时数仓的实践,内容分为以下四个方面...
2020-04-20 00:00:00 346
转载 Java 性能优化的 45 个细节
来源:网络,原始作者未知。如有知晓的朋友,请留言。在JAVA程序中,性能问题的大部分原因并不在于JAVA语言,而是程序本身。养成良好的编码习惯非常重要,能够显著地提升程序性能。1. 尽量...
2020-04-19 00:19:40 144
原创 java实操|mysql数据增量同步到kafka
一,架构介绍生产中由于历史原因web后端,mysql集群,kafka集群(或者其它消息队列)会存在一下三种结构。1,数据先入mysql集群,再入kafka数据入mysql集群是不可更改的...
2020-04-17 08:00:00 984 1
原创 获取yarn上APP的状态案例
在星球里和微信群里很多朋友都有疑惑,如何监控 yarn 上 spark 或者 mr 应用的存活状态,浪尖今天在这里分享一下实现方法,实际上只需要简单的几行代码即可。首先是,pom文件,...
2020-04-13 12:21:06 1233 1
原创 Spark读写XML文件及注意事项
最近有粉丝问浪尖spark 如何读写xml格式的文件,尤其是嵌套型的,spark本身是不支持xml格式文件读取的,但是databricks开源了一个jar,支持xml文件的读写,浪尖这...
2020-04-12 21:34:17 3106 2
转载 【开发实践】美团为什么开发 Kylin On Druid(下)?
前言在上篇文章里,我们比较了 Kylin 和 Druid 这两个重要的 OLAP引擎的特点,也分析了 Kylin on HBase 的不足,得出了使用 Druid 代替 HBase 作...
2020-04-11 23:17:31 198
转载 【开发实践】美团为什么开发 Kylin On Druid(上)?
前言在大数据分析领域,Apache Kylin 和 Apache Druid (incubating) 是两个普遍使用的 OLAP 引擎,都具有支持在超大数据上进行快速查询的能力。在一...
2020-04-11 23:17:31 357
转载 高效开发:IntelliJ IDEA天天用,这些Debug技巧你都知道?
来源:https://www.aneasystone.com/在软件开发的过程中,可以说调试是一项基本技能。调试的英文单词为 debug ,顾名思义,就是去除 bug 的意思。俗话说的...
2020-04-09 19:01:06 249
转载 什么是Code Review_Java_阳光岛主-CSDN博客
有人问到codereview相关内容。浪尖找了一篇不错的文章,给大家借鉴一下。但是code review不要吹毛求疵哦~https://blog.csdn.net/ithomer/ar...
2020-04-08 23:38:27 688
转载 探究与解决YARN Container分配过于集中的问题
最近至少有两个粉丝在问浪尖为啥自己资源充足yarn还会将spark的executor集中分配到个别的nodemanager的问题,浪尖起初只是给出了一个参数yarn.scheduler...
2020-04-07 23:44:53 726
转载 Google 之 Java 编码规范
编辑:可可(技术新干线)来源:https://google.github.io/styleguide/javaguide.htmlGoogle官方的Java编程风格规范。与其它的编程风...
2020-04-06 21:21:53 176
原创 浪尖的学习历程
今天,刷抖音,被武汉医生和护士志愿者感动,被各个城市为迎接返程英雄的阵仗感动,感觉这样的人民,这样的祖国,不强大没天理了!言归正传,今天主要是分享一下浪尖的学习方法和学习经历吧,主...
2020-04-05 00:43:19 623 1
原创 浪尖说spark的coalesce的利弊及原理
浪尖的粉丝应该很久没见浪尖发过spark源码解读的文章,今天浪尖在这里给大家分享一篇文章,帮助大家进一步理解rdd如何在spark中被计算的,同时解释一下coalesce降低分区的原理...
2020-04-02 23:19:36 1425
转载 有前途的程序员的14个习惯,你有几个?
作者:∑Gemini来自:伯乐在线慎于说Yes在没有搞清楚开发需求、任务工作量、团队期望值之前,有前途的程序员不会轻易答应。特别是对于新人来说,比较急于表现自己,对于同事或者老板的工作...
2020-04-01 23:40:19 178
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人