自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

大数据星球-浪尖

主要分享Spark使用及源码,spark 机器学习,图计算,同时会涉及到,如:hadoop,Hbase,Hive,Kafka。保证文章质量,给大家提供一个好的知识分享平台。...

转载 java类加载器学习必备

一,Java类的加载、链接与初始化1,加载:查找并加载类的二进制数据• 通过一个类的全限定名来获取定义此类的二进制字节流• 将这个字节流所代表的静态存储结构转化为方法区的运行时数据结构•...

2020-06-04 00:04:24 81 0

转载 QQ音乐PB级ClickHouse实时数据平台架构演进之路

导语 |OLAP(On-Line Analytical Processing),是数据仓库系统的主要应用形式,帮助分析人员多角度分析数据,挖掘数据价值。本文基于QQ音乐海量大数据实时分...

2020-06-04 00:04:24 115 0

转载 如何画出牛逼的、高大上的架构图?

来源 |公众号「阿里巴巴云原生」当我们想用一张或几张图来描述我们的系统时,是不是经常遇到以下情况:对着画布无从下手、删了又来?用一张图描述我的系统,并且让产品、运营、开发都能看明白?画...

2020-06-02 00:00:50 35 0

转载 到底如何设置 Java 线程池的大小?

来源:ifeve.com/how-to-calculate-threadpool-size/在我们日常业务开发过程中,或多或少都会用到并发的功能。那么在用到并发功能的过程中,就肯定会碰到...

2020-06-01 00:04:13 105 0

转载 用 Apache Pulsar SQL 查询数据流

????️ 阅读本文需要大约 7 分钟Apache Pulsar 越来越受欢迎,尤其在成为 Apache 软件基金会的顶级项目后。用户不仅将 Pulsar 用于发布/订阅消息,还利用其可...

2020-06-01 00:04:13 51 0

转载 十款性能最佳的压缩算法

数据压缩是保留相同或绝大部分数据前提下减小文件大小的过程。它的原理是消除不必要的数据或以更高效的格式重新组织数据。在进行数据压缩时,你可以选择使用有损方法或无损方法。有损方法会永久性地擦...

2020-05-31 00:05:22 209 0

转载 2020年5月程序员工资统计,平均14542元,我又拖后腿了!

作者:有数可据来源:https://blog.csdn.net/juwikuang/article/details/105875849今天,看到一篇关于程序员工资统计的文章,给大家分享一...

2020-05-31 00:05:22 65 0

转载 如何用一套引擎搞定机器学习全流程?

来源:Flink 中文社区作者:阿里技术专家陈戊超(仲卓)本文由阿里技术专家陈戊超(仲卓)分享。深度学习技术在当代社会发挥的作用越来越大。目前深度学习被广泛应用于个性化推荐、商品搜索、人...

2020-05-30 00:00:29 111 0

转载 IntelliJ IDEA 调试技巧,比 Eclipse 强太多了!

来自:光年https://www.cnblogs.com/jun1019/p/9741224.html一、条件断点循环中经常用到这个技巧,比如:遍历1个大List的过程中,想让断点停在某...

2020-05-30 00:00:29 67 0

转载 同样是服务注册中心,Eureka为什么比ZooKeeper优秀?

1. 前言服务注册中心,给客户端提供可供调用的服务列表,客户端在进行远程服务调用时,根据服务列表然后选择服务提供方的服务地址进行服务调用。服务注册中心在分布式系统中大量应用,是分布式系统...

2020-05-29 08:45:13 44 0

转载 Java 处理 Exception 的 9 个最佳实践!

在Java中处理异常并不是一个简单的事情。不仅仅初学者很难理解,即使一些有经验的开发者也需要花费很多时间来思考如何处理异常,包括需要处理哪些异常,怎样处理等等。这也是绝大多数开发团队都会...

2020-05-29 08:45:13 37 0

原创 spark改七行源码实现高效处理kafka数据积压

1. 劳力士spark streaming消费kafka,大家都知道有两种方式,也是面试考基本功常问的:a.基于receiver的机制。这个是spark streaming最基本的方式...

2020-05-28 08:37:25 78 0

转载 盘点开发中那些常用的MySQL优化

作者:jian链接:https://www.cnblogs.com/jian0110/p/9410981.html1、大批量插入数据优化(1)对于MyISAM存储引擎的表,可以使用:DI...

2020-05-28 08:37:25 57 0

原创 kafka|使用Interceptors实现消息端到端跟踪

现在,Kafka指标的采集都仅包括客户端或broker,这使得用户跟踪消息在集群内的传递路径,构建系统端到端的性能和行为画像变的困难。从技术上讲,通过修改应用以收集或跟踪额外的信息来测量...

2020-05-27 07:51:30 40 0

转载 一文搞定分布式系统ID生成方案

来源 |8rr.co/zY2H系统唯一ID是我们在设计一个系统的时候常常会遇见的问题,也常常为这个问题而纠结。生成ID的方法有很多,适应不同的场景、需求以及性能要求。所以有些比较复杂的...

2020-05-26 00:02:36 40 0

转载 HDFS卷(磁盘)选择策略

昨天,发了一篇文章,讲的是磁盘均衡的策略,浪尖是以增加大磁盘的目录数的方式,来提升大磁盘的写入概率。这其实只适合,磁盘大小不一导致的datanode节点数据写入磁盘生成的不均衡。对于有相...

2020-05-26 00:02:36 43 0

转载 30.scala的注解

注解将元信息与定义相关联。例如,方法之前的注解 @deprecated 会导致编译器在该方法被使用时打印警告信息。object DeprecationDemo extends App {...

2020-05-26 00:02:36 44 0

原创 关于浪尖小蜜圈的一些说明

画虽然最近浪尖比较懒惰,但是浪尖小蜜圈也破千了。首先感谢大家的支持及认可,感觉去年尤其是下半年是浪尖事情比较多的一年,公众号和小蜜圈都懈怠了。还有小蜜圈改版之后提问不会直接通知博主,要博...

2020-05-25 00:01:03 64 0

原创 Hdfs的DN节点数据磁盘大小不均衡如何处理

这是一篇历史文章,貌似16还在负责做集群的时候遇到并解决的一问题。之所以发出来是因为感觉比较实用,自从公众号迁移之后,历史文章不能搜索了,所以浪尖每隔一段时间,抽一篇比较实用的历史文章发...

2020-05-25 00:01:03 71 0

转载 吃狗粮:用 Kylin 实时分析 Kylin 运行时指标

通过将 System Cube 的 sink 设置为 Kafka,可以一键提升 System Cube 的易用性和实时性,并且实现 Kylin Metrics 系统的功能闭环。01背景在...

2020-05-25 00:01:03 61 0

转载 Flink 1.10 细粒度资源管理解析

相信不少读者在开发 Flink 应用时或多或少会遇到在内存调优方面的问题,比如在我们生产环境中遇到最多的 TaskManager 在容器化环境下占用超出容器限制的内存而被 YARN/Me...

2020-05-24 00:02:00 91 0

转载 必读|Nginx的日志采集方式对比

由于nginx功能强大,性能突出,越来越多的web应用采用nginx作为http和反向代理的web服务器。而nginx的访问日志不管是做用户行为分析还是安全分析都是非常重要的数据源之一。...

2020-05-24 00:02:00 80 0

转载 Java 最坑爹的 10 大功能点!

作为一门面向对象的编程语言,Java凭借其简单易用、功能强大的特点受到了广大编程爱好者的青睐,伴随着开源社区的推波助澜,Java语言更是席卷全球,势不可挡,在世界各地都有Java技术的从...

2020-05-23 00:02:17 82 0

原创 spark streaming窗口及聚合操作后如何管理offset

很多知识星球球友问过浪尖一个问题: 就是spark streaming经过窗口的集合操作之后,再去管理offset呢? 对于spark streaming来说窗口操作之后,是无法管理of...

2020-05-23 00:02:17 96 0

转载 一张图,搞定大数据工程师的成长路径

薪资高、机会多、缺口大,让大数据在开发圈里成了香饽饽。与此同时,在我做公众号的这两年,目睹了太多人「从入门到放弃」,甚至有些人连大数据的门都没进来。看看你是那种?在中小企业做了一段时间...

2020-05-22 09:13:33 86 0

原创 以上帝视角看看Spark Streaming实现

开始之前,先投票,明天大A如何:要说流式微批处理类似Spark Streaming,就不得不说一下TCP流。典型的tcp IO流模型有,bio,伪异步IO,NIO,AIO,Rector模...

2020-05-21 00:06:31 84 0

转载 工作8年,年薪资从1w涨到7w,网友:本科的话有点牛逼了

来自:程序员求职面试(微信号:CoderJob)近日,有网友在某社交平台表示:经历了8年薪资才从1w涨到7w * 16,引起大家的讨论。根据网友们的评论,有不少网友表示自己跟该职友的情况...

2020-05-21 00:06:31 180 0

原创 面试|一文搞定JAVA的网络IO模型

1,最原始的BIO模型该模型的整体思路是有一个独立的Acceptor线程负责监听客户端的链接,它接收到客户端链接请求之后为每个客户端创建一个新的线程进行链路处理,处理完成之后,通过输出流...

2020-05-20 08:12:02 42 0

转载 BAT 程序员人手必备的「数据结构与算法」刷题技巧,快来领!

*文末有 1 元解锁专栏福利今天聊聊掌握了不一定能拿到大厂 Offer,但不掌握一定进不去大厂的神技「数据结构与算法」。为什么突然提到了数据结构与算法呢?这要从一个朋友的吐槽开始。我这位...

2020-05-20 08:12:02 127 0

转载 如何不重启热更新线上 Java 代码?

一、前言热更新代码的场景1)当线上服务器出现问题时,有些时候现有的手段不足以发现问题所在,可能需要追加打印日志或者增加一些调试代码,如果我们去改代码重新部署,会破坏问题现场,可以通过热部...

2020-05-19 00:08:44 53 0

原创 浪尖以案例聊聊spark 3.0 sql的动态分区裁剪

麻烦大家给浪尖投个票,主要是目前公共号名称太单一了,以后的分享的知识会扩充到数据智能,用户画像等领域。本文主要讲讲,spark 3.0之后引入的动态分区裁剪机制,这个会大大提升应用的性能...

2020-05-19 00:08:44 54 0

转载 JAVA 线上故障排查完整套路!牛掰!

作者:fredalxin原文链接:https://fredal.xin/java-error-check线上故障主要会包括 CPU、磁盘、内存以及网络问题,而大多数故障可能会包含不止一个...

2020-05-18 00:09:01 34 0

转载 Flink 消息聚合处理方案

微博机器学习平台使用 Flink 实时处理用户行为日志和生成标签,并且在生成标签后写入存储系统。为了降低存储系统的 IO 负载,有批量写入的需求,同时对数据延迟也需要进行一定的控制,因此...

2020-05-18 00:09:01 39 0

转载 Java 应用性能调优,可视化工具

JVisualVM 简介案例分析准备模拟内存泄漏样例使用JVisualVM分析内存泄漏JVisualVM 远程监控 TomcatJVisualVM 简介VisualVM 是Netbean...

2020-05-17 00:03:22 154 0

转载 2020 年 5 月全国程序员工资出炉!

来自:网络5月份程序员工资新鲜出炉,平均14542元!希望能给各位同学有所参考,数据来源于招聘网站,可能与实际情况有所偏差。整体上来说,应该还是在正态分布的范围内。平均工资2020年5月...

2020-05-15 00:05:54 102 0

转载 Java 8 中的方法引用,怎么用到最好?

在Java8中,使用方法引用非常简单,如String::isEmpty,但无法使用它否定的方法引用。本文内容即如何解决此问题使得我们能够更加全面地使用方法引用。首先看一个使用方法引用的例...

2020-05-14 00:07:28 60 0

转载 Flink State 最佳实践

本文主要分享与交流 Flink 状态使用过程中的一些经验与心得,当然标题取了“最佳实践”之名,希望文章内容能给读者带去一些干货。本文内容首先是回顾 state 相关概念,并认识和区别不同...

2020-05-14 00:07:28 75 0

转载 开发中常用的 4 种加密方法

0x01:工具类md5加密工具类base64加密工具类Bcrypt工具类0x02:加密测试MD5加密测试base64加密测试SHA加密测试BCrypt加密测试0x03、工具类1. m...

2020-05-13 00:07:19 37 0

转载 Apache Flink CEP 实战

本文根据 Apache Flink 系列直播课程整理而成,由哈啰出行大数据实时平台资深开发刘博分享。通过一些简单的实际例子,从概念原理,到如何使用,再到功能的扩展,希望能够给计划使用或者...

2020-05-13 00:07:19 81 0

转载 String 也能做性能优化,我只能说牛逼!

来自:https://blog.csdn.net/kkkkk0826/article/details/104171355String字符串是系统里最常用的类型之一,在系统中占据了很大的内...

2020-05-12 00:06:36 46 0

提示
确定要删除当前文章?
取消 删除