自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

大数据星球-浪尖

主要分享Spark使用及源码,spark 机器学习,图计算,同时会涉及到,如:hadoop,Hbase,Hive,Kafka。保证文章质量,给大家提供一个好的知识分享平台。

  • 博客(32)
  • 收藏
  • 关注

原创 浪尖的生活工作自嘲~

今天不讲技术!生活昨天,八点到健身房,跟着美女教练一个小时减脂运动,然后又跑了六公里,身体貌似兴奋了,到凌晨一点半都没睡着。从8月12号办健身卡至今健身四个月...

2018-11-30 00:04:02 655

转载 三年0故障是如何做到的?

该文章来自于云栖社区,作者不闻,就职于阿里巴巴。此文章发布于2015年,小编觉得仍然有其现实意义,所谓 "年年岁岁错相似,岁岁年年人不同",又道太阳底下无新事。对于作者的...

2018-11-29 00:00:00 235

转载 负责任的说,Java仍然免费

最近有关Java收费的谣言不断,本不想对此发表评论,毕竟一些负责任的媒体早已经澄清了多次,我自己的立场也不中立,而且,仔细阅读那些文章,你会发现往往第一句话就是自相矛盾的...

2018-11-29 00:00:00 652

转载 用户画像:使用Antlr构建用户筛选的DSL

随着业务的发展,我们会积攒越来越多的用户,为了能够对用户更精准的进行营销,挖掘,或者统计,我们会对用户进行打标,打标可以包含诸多维度,例如:基础信息:包括年龄段,性别等订...

2018-11-28 00:00:41 1352

转载 为什么程序员对旧代码深恶痛绝?

最近有人问我,为什么软件开发者非常痛恨维护别人的代码?我思考了很久怎样回答这个问题,最后决定做一个简单的比喻。有人请求你在一个岛上建一座实验室,而这是一个其他工程师遗留下...

2018-11-27 00:00:00 214

转载 Redis热点Key发现及常见解决方案

健身之乐,其乐无穷。终于一小时体能训练,加十公里了。热点Key问题产生的原因大致有以下两种:1、用户消费的数据远大于生产的数据(热卖商品、热点新闻、热点评论、明星直播)。...

2018-11-27 00:00:00 400

转载 几张动态图捋清Java常用数据结构及其设计原理

原文:https://www.cnblogs.com/xdecode/p/9321848.html转载自公众号【java进阶架构师】最近在整理数据结构方面的知识, 系统化...

2018-11-26 00:00:00 342

转载 深入理解 hashcode 和 hash 算法

摘要二进制计算的一些基础知识为什么使用 hashcodeString 类型的 hashcode 方法为什么大部分 hashcode 方法使用 31HashMap 的 ha...

2018-11-25 00:00:00 881

转载 一组漫画完美总结互联网人生

转自公众号:大叔爱吐槽1991年,万维网(World Wide Web)向公众开放,标志着互联网的诞生。如今人类的生活被互联网极大地改变,以至于没有网络的生活几乎是难以想...

2018-11-24 00:00:00 587

转载 海量数据处理之BloomFilter

一提到元素查找,我们会很自然的想到HashMap。通过将哈希函数作用于key上,我们得到了哈希值,基于哈希值我们可以去表里的相应位置获取对应的数据。除了存在哈希冲突问题之...

2018-11-23 00:00:00 1296

原创 调试flink源码

本文主要是讲讲flink的源码编译,案例运行,flink源码调试过程。调试flink的源码及案例,需要先clone工程,编一下源码,去掉规范检查,修改工程,最后才是调试运...

2018-11-22 00:00:00 2193

转载 Apache Kafka:优化部署的 10 种最佳实践

作者 | Ben Bromhead 译者 | 冬雨 转自 | infoApache Kafka 肯定会像它的同名小说家一样不负众望,因为它能激奋新来者、挑战深...

2018-11-21 00:00:00 478

原创 结合Spark讲一下Flink的runtime

Flink运行时主要角色有两个:JobManager和TaskManager,无论是standalone集群,on yarn都是要启动这两个角色。有点类似于MRv1的架构...

2018-11-20 00:00:00 754

转载 Hbase Rowkey设计及索引

开头,先功夫一个好消息,浪尖的微信公众号支持内容搜索了,入口请点击原文阅读。https://data.newrank.cn/m/s.html?s=PSkwPS48MT87...

2018-11-19 00:00:00 513

转载 Java 程序员必备的高效 Intellij IDEA 插件

以下是我用过不错的IntelliJ插件,分享给大家,希望能帮到大家。1. .ignore地址:https://plugins.jetbrains.com/plugin/7...

2018-11-18 00:00:00 441

转载 艳遇的最高境界,绝了!

转自:手机摄影大师艳遇的最高境界排队的最高境界 过河的最高境界思考者的最高境界门的最高境界理发的最高境界音乐的最高境界偷车的最高境界投篮的最高境界野炊的最高境界汽车广告的...

2018-11-17 00:01:51 313

原创 海量数据处理之bitmap

一、概述本文将讲述Bit-Map算法的相关原理,Bit-Map算法的一些利用场景,例如BitMap解决海量数据寻找重复、判断个别元素是否在海量数据当中等问题.最后说说Bi...

2018-11-16 00:00:00 1424

原创 Spark SQL用UDF实现按列特征重分区

欢迎关注,浪尖公众号,bigdatatip,建议置顶。这两天,球友又问了我一个比较有意思的问题:解决问题之前,要先了解一下Spark 原理,要想进行相同数据归类到相同分区...

2018-11-15 00:00:00 1861

原创 Spark2.4.0屏障调度器

前几天,浪尖发了一篇文章,讲了Spark 2.4发布更新情况:Spark2.4.0发布了!其中,就有一项说到Spark 为了支持深度学习而引入的屏障调度器。本文就详细讲讲...

2018-11-14 00:00:00 636

转载 一个人正在蜕变的3大迹象

作者丨如萍来源:每晚一本书(yitiaobao)▼卡耐基在《你变了世界就变了》中说:“人生如行路,一路艰辛,一路风景,你的目光所及,就是你的人生境界。总是看到比自己优秀的...

2018-11-13 00:00:00 830

原创 Spark SQL的几个里程碑!

本文讲讲Spark SQL的几个里程碑的更新升级。1. spark 1.0.0诞生了Spark SQL官方版本是spark 1.0.0引入的Spark SQL模块。当时这...

2018-11-12 00:00:00 771

原创 大数据啊大数据!

首先,祝大家双十一快乐。开始本文之前,希望大家参与一下下面的投票。做这个投票的主要原因是最近经常有找浪尖咨询大数据,自学,培训及找工作的事情,问题归类如下:大数据要不要培...

2018-11-11 00:00:00 2604

转载 Spark2.4.0发布了!

Spark2.4.0 今天官网发布,这是一个大好消息。Spark 2.4.0是2.x的第五个发型版本。官方发布消息链接如下:http://spark.apache.org...

2018-11-10 00:00:00 2001

转载 如何成为一个优秀的工程师?

这是一篇旧文,是陆奇还在百度时候的演讲:如何成为一个优秀的工程师。道出了一个工程师应有的追求,如此,未来才能属于工程师。01Believe in 技术首先要相信技术,我刚...

2018-11-09 00:00:00 188

原创 解惑:这个SPARK任务是数据倾斜了吗?

健身前后对比健身回来的路上,看到微信群里聊技术,一群有问了一个神奇的问题,具体可以看如下截图:哥们给出的结论是repartition导致的数据倾斜,我给他详细的回复了说明...

2018-11-08 05:49:27 508

原创 高性能:MYSQL异步客户端

实时必须实时处理领域,当需要使用外部存储数据染色的时候,需要慎重对待,不能让与外部系统之间的交互延迟对流的整个进度取决定性的影响。同步的与数据库交互需要等待一个请求从发起...

2018-11-07 00:03:55 3168 6

原创 Flink异步IO第一讲

Async I/O 是阿里巴巴贡献给社区的一个呼声非常高的特性,于1.2版本引入。主要目的是为了解决与外部系统交互时网络延迟成为了系统瓶颈的问题。对于实时处理,当需要使用...

2018-11-06 00:00:00 2906 2

原创 spark源码导读一

经常有球友问,我分享了源码视频,那么该如何下手?实际上,正常情况下,单纯爱好去看源码的情况不多,阅读源码无非就一下几种情况:1,业务需求,现有框架满足不了项目需要,...

2018-11-05 00:03:14 538

原创 案例简介flink CEP

随着无处不在的传感器网络和智能设备不断收集越来越多的数据,我们面临着以近实时的方式分析不断增长的数据流的挑战。 能够快速响应不断变化的趋势或提供最新的商业智能可能是公司成...

2018-11-04 00:00:00 5276

转载 互联网公司吹牛逼指南

来源 | 姜茶茶(ID:jiangchacha0314)昨天看到@币财经有一条微博火了。我们补充了一下,这本《互联网吹牛逼指南》,在你工作时一定听到过。一、招聘我是北大的...

2018-11-03 00:00:00 1349

转载 知乎数据埋点方案

客户端埋点为什么难?埋点的流程从业务过程中采集埋点,是数据驱动型公司的必要条件。知乎的产品功能评审环节,不仅有 PRD (Product requirement docu...

2018-11-02 00:00:00 5236

原创 一文精通kafka 消费者的三种语义

本文主要是以kafka 09的client为例子,详解kafka client的使用,包括kafka消费者的三种消费语义at-most-once, at-least-on...

2018-11-01 00:22:02 2331

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除