自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

大数据星球-浪尖

主要分享Spark使用及源码,spark 机器学习,图计算,同时会涉及到,如:hadoop,Hbase,Hive,Kafka。保证文章质量,给大家提供一个好的知识分享平台。

  • 博客(44)
  • 收藏
  • 关注

转载 面试|不可不知的十大Hive调优技巧最佳实践

Apache Hive是建立在Apache Hadoop之上的数据仓库软件项目,用于提供数据查询和分析。Hive是Hadoop在HDFS上的SQL接口,它提供了类似于SQL的接口来查询存...

2020-11-18 09:00:00 722

原创 面试|spark刷爆磁盘与java弱引用的关系

一 引用基本概念如下面,定义两个变量num,str,存储模型大致如下图:int num = 6;String str = “浪尖聊大数据”;变量num值直接从6修改为了8;变量str...

2020-11-11 08:35:34 337

转载 Hbase Bulkload 原理|面试必备

当需要大批量的向Hbase导入数据时,我们可以使用Hbase Bulkload的方式,这种方式是先生成Hbase的底层存储文件 HFile,然后直接将这些 HFile 移动到Hbase的...

2020-11-10 08:59:49 1317

原创 漫画|讲解一下如何写简历&项目

star法写项目的案例:深圳浪尖聊大数据有限公司2018.3-至今日志中心建设项目周期2020.2.10-2020.4.20成就经历简述2020.2.10-2020.5.20,在深圳...

2020-11-06 08:19:00 934

转载 如何理解Kafka的消息可靠性策略?

导语 | Kafka作为一款性能优秀的消息队列,主要用于异步、削峰、解耦处理,在分布式事务中有着广泛的应用,但仍有很多开发者在运用过程中存在疑惑。文本将为大家由浅入深剖析Kafka基础原...

2020-11-30 23:45:28 229

转载 了解了吗?程序员必知的这 7 种软件架构模式

架构模式是对给定上下文的软件架构中常见问题的一种通用的可复用的解决方案。一种模式就是特定上下文的问题的一种解决方案。然而,很多开发者至今还对各种软件架构模式之间的差别搞不清,甚至对其所知...

2020-11-29 12:19:00 122

转载 阿里巴巴为什么能抗住90秒100亿?看完这篇你就明白了!

作者:huashiou链接:https://segmentfault.com/a/11900000186261631、概述本文以淘宝作为例子,介绍从一百个并发到千万级并发情况下服务端的架...

2020-11-28 12:00:00 221

转载 5款强大的JVM 性能调优监控工具 !

原文链接:www.iteye.com/blog/josh-persistence-2161848现实企业级Java应用开发、维护中,有时候我们会碰到下面这些问题:OutOfMemoryE...

2020-11-26 23:31:51 438

转载 一个复杂系统的拆分改造,压力真大!

1 为什么要拆分? 先看一段对话。从上面对话可以看出拆分的理由:1)应用间耦合严重。系统内各个应用之间不通,同样一个功能在各个应用中都有实现,后果就是改一处功能,需要同时改系统中的所...

2020-11-26 23:31:51 157

转载 数据湖存储架构选型

作者简介郑锴,花名铁杰,阿里巴巴高级技术专家,Apache Hadoop PMC。深耕分布式系统开发和开源大数据多年,目前专注于在阿里云上研发业界领先的 Hadoop/Spark 大数据...

2020-11-25 23:41:00 1138 1

转载 有必要做 Code Review 吗???

作者:梨香链接:https://juejin.im/post/6882333635203039239众所周知,Code Review是开发过程中一个非常重要的环节,但是很多公司或者团...

2020-11-25 23:41:00 202

转载 为什么Redis要比Memcached更火?

来源:http://kaito-kidd.com/2020/06/28/redis-vs-memcached/前言我们都知道,Redis和Memcached都是内存数据库,它们的访问速度...

2020-11-24 18:00:00 149

转载 13 张图解 Java 中的内存模型

作者:Carson_Ho链接:juejin.im/post/6844903677279338509前言了解Java中的对象、变量等存放的内存区域十分重要本文将全面讲解Java虚拟机中...

2020-11-24 18:00:00 165

转载 数据仓库架构和建设方法论

1.数据仓库概要1.1.数据仓库起因在建设数据仓库之前,数据散落在企业各部门应用的数据存储中,它们之间有着复杂的业务连接关系,从整体上看就如一张巨大的蜘蛛网:结构上错综复杂,却又四通八达...

2020-11-23 17:56:00 656

转载 IntelliJ IDEA 构建maven多模块工程项目

来源:blog.csdn.net/sinat_34344123食用前须知创建步骤 (详细多图)1. 创建一个空项目2.创建第一个模块3.创建第二个模块总结1 食用前需知本文以a b c ...

2020-11-23 17:56:00 217

转载 华为数据治理实践

转自:AI启蒙者文章作者:华为公司数据管理部内容来源:节选自《华为数据之道》导读:2017 年华为提出了企业的新愿景:"把数字世界带入每个人、每个家庭、每个组织,构建万物互联的智...

2020-11-22 22:00:00 1858

转载 delete、truncate、drop的区别有哪些,该如何选择?

上周同事小姐姐问我:“哈哥你看,我发现MySQL有bug,我下午为了清理磁盘,明明删除了100万条MySQL数据,磁盘不仅没有变小,反而更满了呢??”那你是怎么删除的?“delete f...

2020-11-22 22:00:00 230

转载 SQL 性能优化,太太太太太太太有用了!

Cat哥领读:针对mysql,说了很多优化的点,收藏就好,哈哈哈哈~wolearnjuejin.im/post/59b11ba151882538cb1ecbd0前言本文主要针对的是关系型...

2020-11-21 17:20:00 110

转载 如何构建一个好的电商搜索引擎?

分享嘉宾:邢少敏第四范式 架构师编辑整理:刘员京出品平台:DataFunTalk导读:机器学习算法的不断进步,搜索引擎巧妙的人机交互设计,分布式系统的革新让搜索引擎在不知不觉中成为人们...

2020-11-21 17:20:00 299

转载 我差点去字节跳动做算法了!

大家好,我是程序猿尖。我一直不知道我在大家心目中的定位是什么,但我内心其实是把自己定义为一个『工具人』的。可能是因为我自己本身就是程序员,所以更能理解程序员的不易吧。所以,我尽量不写水文...

2020-11-20 08:30:00 460

转载 京东EB级全域大数据平台的演进与治理历程

本文根据包勇军老师在〖2020 DAMS中国数据智能管理峰会〗现场演讲内容整理而成。(点击文末“阅读原文”可获取完整PPT)讲师介绍包勇军,目前在京东任职数据基础平台部、广告质量部、推荐...

2020-11-20 08:30:00 698

转载 程序员翻车时的30种常见反应

前言软件开发工作充满了挑战性。人无完人,对于程序员来说,写出有 bug 的代码是在所难免的。有些人很淡定,也有一些人会感到生气、沮丧、不安或气馁。在修复 bug 的过程中我们都经历了什么...

2020-11-19 08:20:00 175

转载 了解GFS和HDFS后,要懂得分布式文件系统设计原理

转自:https://www.jianshu.com/p/fc0aa34606ce一、概述分布式文件系统是分布式领域的一个基础应用,其中最著名的毫无疑问是 HDFS/GFS 。如今该领域...

2020-11-16 22:47:35 353

转载 别用 Date 了,使用 Java8 日期处理的新特性,真香!

简介 伴随lambda表达式、streams以及一系列小优化,Java 8 推出了全新的日期时间API。Java处理日期、日历和时间的不足之处:将 java.util.Date 设定...

2020-11-16 22:47:35 163

转载 给IDEA换个酷炫的主题,这个有点哇塞啊!

作者:CodeWhite7地址:blog.csdn.net/weixin_46146269/article/details/104793277IntelliJ IDEA介绍IDEA,全称...

2020-11-15 22:06:00 144

转载 Apache Kylin 在中通快递的实践

摘要·Apache Kylin 在中通是如何落地的,又是怎样赋能中通快递实现 OLAP 分析能力起飞的?本文从多方面对比了 Presto 和 Kylin 的优缺点,并从业务场景、调度...

2020-11-15 22:06:00 320

转载 StackOverflow热帖:Java整数相加溢出怎么办?

作者 |Aaron_涛来源 |blog.csdn.net/qq_33330687/article/details/81626157# 问题在之前刷题的时候遇见一个问题,需要解决int...

2020-11-14 16:53:44 245

转载 百亿级实时计算系统性能优化–—Elasticsearch篇

导语 | 随着业务的发展,系统日益复杂,功能愈发强大,用户数量级不断增多,设备cpu、io、带宽、成本逐渐增加,当发展到某个量级时,这些因素会导致系统变得臃肿不堪,服务质量难以保障,系统...

2020-11-14 16:53:44 933

转载 Kafka如何在千万级别时优化JVM GC问题?

来源 |https://www.toutiao.com/i6828068581758992907/大家都知道Kafka是一个高吞吐的消息队列,是大数据场景首选的消息队列,这种场景就意味...

2020-11-13 08:00:00 229

转载 StringBuider 在什么条件下使用效率更高?

来源 |cnblogs.com/keatsCoder/p/13212289.html引言都说 StringBuilder 在处理字符串拼接上效率要强于 String,但有时候我们的理解...

2020-11-13 08:00:00 67

转载 我们常用的 Integer 内部为什么会去实现 Comparable 接口?

作者巫师大人来源 blog.csdn.net/ysj4428/article/details/81195846今天在开发中无意看到Integer包装类内部实现了Comparable接口...

2020-11-12 08:23:00 160

转载 埋点治理:如何把App埋点做到极致?

导语本文基于实际场景业务需求,通过切面化、平台化、动态化探讨埋点治理方案,把App埋点做到极致,具有一定的实践意义,希望对大家有所帮助和启发。背景埋点日志的统计,数据的分析,直接影响产品...

2020-11-09 17:31:09 2160

转载 面试官问:什么是负载均衡?跟他扯了40分钟

来源 |https://urlify.cn/FBRjyi在网站创立初期,我们一般都使用单台机器对台提供集中式服务,但随着业务量越来越大,无论性能还是稳定性上都有了更大的挑战。这时候我们...

2020-11-08 12:41:22 481

转载 Prometheus 如何做到“活学活用”,大牛总结的避坑指南

作者丨徐亚松来源丨http://www.xuyasong.com/?p=1921监控系统的历史悠久,是一个很成熟的方向,而 Prometheus 作为新生代的开源监控系统,慢慢成为了云原...

2020-11-08 12:41:22 925

转载 kafka面试总结

转自:https://www.cnblogs.com/threecha/p/13737421.html从以下方面对kafka面试进行总结:基本原理架构/项目实践/生产者/消费者/协调者/...

2020-11-07 21:05:00 174

转载 如何优雅地给妹子优化电脑(Windows)?

来自:知乎,作者:海上漂流喵链接:https://www.zhihu.com/question/43631775/answer/714762356每个会修电脑的BOY都有故事1、能力越大...

2020-11-07 21:05:00 126

转载 Kylin、Druid、ClickHouse核心技术对比

文章作者:吴建超内容来源:jackywoo.cn出品平台:DataFunTalk导读:Kylin、Druid、ClickHouse是目前主流的OLAP引擎,本文尝试从数据模型和索引结构两...

2020-11-05 17:32:00 690

转载 解惑“高深”的Kafka时间轮原理,原来也就这么回事!

【摘要】Kafka时间轮是Kafka实现高效的延时任务的基础,它模拟了现实生活中的钟表对时间的表示方式,同时,时间轮的方式并不仅限于Kafka,它是一种通用的时间表示方式,本文主要介绍...

2020-11-04 08:22:53 240

转载 基于 Flink SQL CDC 的实时数据同步方案

整理:陈政羽(Flink 社区志愿者)Flink 1.11 引入了 Flink SQL CDC,CDC 能给我们数据和业务间能带来什么变化?本文由 Apache Flink PMC,阿...

2020-11-03 08:30:00 1028

转载 如何用 Redis 统计独立用户访问量?

文章来源:https://url.cn/5tQPEQg今天来聊一聊拼多多的一道后台面试真题,是一道简单的架构类的题目:拼多多有数亿的用户,那么对于某个网页,怎么使用Redis来统计一个网...

2020-11-03 08:30:00 145

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除