自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

大数据星球-浪尖

主要分享Spark使用及源码,spark 机器学习,图计算,同时会涉及到,如:hadoop,Hbase,Hive,Kafka。保证文章质量,给大家提供一个好的知识分享平台。

  • 博客(55)
  • 收藏
  • 关注

转载 十款性能最佳的压缩算法

数据压缩是保留相同或绝大部分数据前提下减小文件大小的过程。它的原理是消除不必要的数据或以更高效的格式重新组织数据。在进行数据压缩时,你可以选择使用有损方法或无损方法。有损方法会永久性地擦...

2020-05-31 00:05:22 17176 1

转载 2020年5月程序员工资统计,平均14542元,我又拖后腿了!

作者:有数可据来源:https://blog.csdn.net/juwikuang/article/details/105875849今天,看到一篇关于程序员工资统计的文章,给大家分享一...

2020-05-31 00:05:22 355

转载 如何用一套引擎搞定机器学习全流程?

来源:Flink 中文社区作者:阿里技术专家陈戊超(仲卓)本文由阿里技术专家陈戊超(仲卓)分享。深度学习技术在当代社会发挥的作用越来越大。目前深度学习被广泛应用于个性化推荐、商品搜索、人...

2020-05-30 00:00:29 281

转载 IntelliJ IDEA 调试技巧,比 Eclipse 强太多了!

来自:光年https://www.cnblogs.com/jun1019/p/9741224.html一、条件断点循环中经常用到这个技巧,比如:遍历1个大List的过程中,想让断点停在某...

2020-05-30 00:00:29 225

转载 同样是服务注册中心,Eureka为什么比ZooKeeper优秀?

1. 前言服务注册中心,给客户端提供可供调用的服务列表,客户端在进行远程服务调用时,根据服务列表然后选择服务提供方的服务地址进行服务调用。服务注册中心在分布式系统中大量应用,是分布式系统...

2020-05-29 08:45:13 337

转载 Java 处理 Exception 的 9 个最佳实践!

在Java中处理异常并不是一个简单的事情。不仅仅初学者很难理解,即使一些有经验的开发者也需要花费很多时间来思考如何处理异常,包括需要处理哪些异常,怎样处理等等。这也是绝大多数开发团队都会...

2020-05-29 08:45:13 167

原创 spark改七行源码实现高效处理kafka数据积压

1. 劳力士spark streaming消费kafka,大家都知道有两种方式,也是面试考基本功常问的:a.基于receiver的机制。这个是spark streaming最基本的方式...

2020-05-28 08:37:25 369

转载 盘点开发中那些常用的MySQL优化

作者:jian链接:https://www.cnblogs.com/jian0110/p/9410981.html1、大批量插入数据优化(1)对于MyISAM存储引擎的表,可以使用:DI...

2020-05-28 08:37:25 192

原创 kafka|使用Interceptors实现消息端到端跟踪

现在,Kafka指标的采集都仅包括客户端或broker,这使得用户跟踪消息在集群内的传递路径,构建系统端到端的性能和行为画像变的困难。从技术上讲,通过修改应用以收集或跟踪额外的信息来测量...

2020-05-27 07:51:30 498

转载 一文搞定分布式系统ID生成方案

来源 |8rr.co/zY2H系统唯一ID是我们在设计一个系统的时候常常会遇见的问题,也常常为这个问题而纠结。生成ID的方法有很多,适应不同的场景、需求以及性能要求。所以有些比较复杂的...

2020-05-26 00:02:36 165

转载 HDFS卷(磁盘)选择策略

昨天,发了一篇文章,讲的是磁盘均衡的策略,浪尖是以增加大磁盘的目录数的方式,来提升大磁盘的写入概率。这其实只适合,磁盘大小不一导致的datanode节点数据写入磁盘生成的不均衡。对于有相...

2020-05-26 00:02:36 379

转载 30.scala的注解

注解将元信息与定义相关联。例如,方法之前的注解 @deprecated 会导致编译器在该方法被使用时打印警告信息。object DeprecationDemo extends App {...

2020-05-26 00:02:36 263

原创 关于浪尖小蜜圈的一些说明

画虽然最近浪尖比较懒惰,但是浪尖小蜜圈也破千了。首先感谢大家的支持及认可,感觉去年尤其是下半年是浪尖事情比较多的一年,公众号和小蜜圈都懈怠了。还有小蜜圈改版之后提问不会直接通知博主,要博...

2020-05-25 00:01:03 431

原创 Hdfs的DN节点数据磁盘大小不均衡如何处理

这是一篇历史文章,貌似16还在负责做集群的时候遇到并解决的一问题。之所以发出来是因为感觉比较实用,自从公众号迁移之后,历史文章不能搜索了,所以浪尖每隔一段时间,抽一篇比较实用的历史文章发...

2020-05-25 00:01:03 993

转载 吃狗粮:用 Kylin 实时分析 Kylin 运行时指标

通过将 System Cube 的 sink 设置为 Kafka,可以一键提升 System Cube 的易用性和实时性,并且实现 Kylin Metrics 系统的功能闭环。01背景在...

2020-05-25 00:01:03 870

转载 Flink 1.10 细粒度资源管理解析

相信不少读者在开发 Flink 应用时或多或少会遇到在内存调优方面的问题,比如在我们生产环境中遇到最多的 TaskManager 在容器化环境下占用超出容器限制的内存而被 YARN/Me...

2020-05-24 00:02:00 421

转载 必读|Nginx的日志采集方式对比

由于nginx功能强大,性能突出,越来越多的web应用采用nginx作为http和反向代理的web服务器。而nginx的访问日志不管是做用户行为分析还是安全分析都是非常重要的数据源之一。...

2020-05-24 00:02:00 341

原创 spark streaming窗口及聚合操作后如何管理offset

很多知识星球球友问过浪尖一个问题:就是spark streaming经过窗口的集合操作之后,再去管理offset呢?对于spark streaming来说窗口操作之后,是无法管理of...

2020-05-23 00:02:17 890

原创 以上帝视角看看Spark Streaming实现

开始之前,先投票,明天大A如何:要说流式微批处理类似Spark Streaming,就不得不说一下TCP流。典型的tcp IO流模型有,bio,伪异步IO,NIO,AIO,Rector模...

2020-05-21 00:06:31 270

转载 工作8年,年薪资从1w涨到7w,网友:本科的话有点牛逼了

来自:程序员求职面试(微信号:CoderJob)近日,有网友在某社交平台表示:经历了8年薪资才从1w涨到7w * 16,引起大家的讨论。根据网友们的评论,有不少网友表示自己跟该职友的情况...

2020-05-21 00:06:31 687

原创 面试|一文搞定JAVA的网络IO模型

1,最原始的BIO模型该模型的整体思路是有一个独立的Acceptor线程负责监听客户端的链接,它接收到客户端链接请求之后为每个客户端创建一个新的线程进行链路处理,处理完成之后,通过输出流...

2020-05-20 08:12:02 235

转载 如何不重启热更新线上 Java 代码?

一、前言热更新代码的场景1)当线上服务器出现问题时,有些时候现有的手段不足以发现问题所在,可能需要追加打印日志或者增加一些调试代码,如果我们去改代码重新部署,会破坏问题现场,可以通过热部...

2020-05-19 00:08:44 295

原创 浪尖以案例聊聊spark 3.0 sql的动态分区裁剪

麻烦大家给浪尖投个票,主要是目前公共号名称太单一了,以后的分享的知识会扩充到数据智能,用户画像等领域。本文主要讲讲,spark 3.0之后引入的动态分区裁剪机制,这个会大大提升应用的性能...

2020-05-19 00:08:44 558

转载 JAVA 线上故障排查完整套路!牛掰!

作者:fredalxin原文链接:https://fredal.xin/java-error-check线上故障主要会包括 CPU、磁盘、内存以及网络问题,而大多数故障可能会包含不止一个...

2020-05-18 00:09:01 150

转载 Flink 消息聚合处理方案

微博机器学习平台使用 Flink 实时处理用户行为日志和生成标签,并且在生成标签后写入存储系统。为了降低存储系统的 IO 负载,有批量写入的需求,同时对数据延迟也需要进行一定的控制,因此...

2020-05-18 00:09:01 760 1

转载 Java 应用性能调优,可视化工具

JVisualVM 简介案例分析准备模拟内存泄漏样例使用JVisualVM分析内存泄漏JVisualVM 远程监控 TomcatJVisualVM 简介VisualVM 是Netbean...

2020-05-17 00:03:22 399

转载 2020 年 5 月全国程序员工资出炉!

来自:网络5月份程序员工资新鲜出炉,平均14542元!希望能给各位同学有所参考,数据来源于招聘网站,可能与实际情况有所偏差。整体上来说,应该还是在正态分布的范围内。平均工资2020年5月...

2020-05-15 00:05:54 384

转载 Java 8 中的方法引用,怎么用到最好?

在Java8中,使用方法引用非常简单,如String::isEmpty,但无法使用它否定的方法引用。本文内容即如何解决此问题使得我们能够更加全面地使用方法引用。首先看一个使用方法引用的例...

2020-05-14 00:07:28 192

转载 Flink State 最佳实践

本文主要分享与交流 Flink 状态使用过程中的一些经验与心得,当然标题取了“最佳实践”之名,希望文章内容能给读者带去一些干货。本文内容首先是回顾 state 相关概念,并认识和区别不同...

2020-05-14 00:07:28 485

转载 开发中常用的 4 种加密方法

0x01:工具类md5加密工具类base64加密工具类Bcrypt工具类0x02:加密测试MD5加密测试base64加密测试SHA加密测试BCrypt加密测试0x03、工具类1. m...

2020-05-13 00:07:19 325

转载 Apache Flink CEP 实战

本文根据 Apache Flink 系列直播课程整理而成,由哈啰出行大数据实时平台资深开发刘博分享。通过一些简单的实际例子,从概念原理,到如何使用,再到功能的扩展,希望能够给计划使用或者...

2020-05-13 00:07:19 438

转载 String 也能做性能优化,我只能说牛逼!

来自:https://blog.csdn.net/kkkkk0826/article/details/104171355String字符串是系统里最常用的类型之一,在系统中占据了很大的内...

2020-05-12 00:06:36 133

原创 尝尝鲜|Spark 3.1自适应执行计划

读本文前,应该先读读昨天的文章Spark join种类(>3种)及join选择依据每个框架产生都是为了解决一类问题,每个模块的优化也是为了解决一定的场景下的性能瓶颈。浪尖今天分享的...

2020-05-12 00:06:36 1006 1

转载 数据库缓存最终一致性的四种方案

背景缓存是软件开发中一个非常有用的概念,数据库缓存更是在项目中必然会遇到的场景。而缓存一致性的保证,更是在面试中被反复问到,这里进行一下总结,针对不同的要求,选择恰到好处的一致性方案。缓...

2020-05-11 00:12:35 284

原创 Spark join种类(>3种)及join选择依据

hashjoinjoin是作为业务开发绕不开的SQL话题,无论是传统的数据库join,还是大数据里的join。做过Spark/flink流处理的应该都用过一种流表和维表的join,维表对...

2020-05-11 00:12:35 1570 1

转载 经验篇:Intellij IDEA 看源码必备的技能!

作者|Dulk来源丨cnblogs.com/deng-cc/p/6927447.html以前学习的时候硬是把从上到下的继承关系和接口实现记得乱七八糟。这次利用了IDEA的diagra...

2020-05-10 00:06:11 192

转载 如何优雅地根治null值引起的Bug!

来源:https://lrwinx.github.io写在前面在笔者几年的开发经验中,经常看到项目中存在到处空值判断的情况,这些判断,会让人觉得摸不着头绪,它的出现很有可能和当前的业...

2020-05-09 00:09:57 187

转载 Apache Flink OLAP引擎性能优化及应用

分享嘉宾:贺小令阿里巴巴技术专家编辑整理:王吉东内容来源:Flink Forward ASIA出品平台:DataFun注:转载请在公众号后台回复“转载”。导读:本次分享的主题为Apac...

2020-05-09 00:09:57 390

转载 Linux性能检测常用的10个基本命令

今天给大家介绍一下常用检测性能的10个基本命令。1. uptime$uptime23:51:26 up 21:31, 1 user, load average: 30.02, 26....

2020-05-08 00:08:04 295

转载 从MongoDB迁移到ES后,我们减少了80%的服务器

作者介绍李猛(ynuosoft),Elastic-stack产品深度用户,ES认证工程师,2012年接触Elasticsearch,对Elastic-Stack开发、架构、运维等方面有深...

2020-05-08 00:08:04 168

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除