自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

大数据星球-浪尖

主要分享Spark使用及源码,spark 机器学习,图计算,同时会涉及到,如:hadoop,Hbase,Hive,Kafka。保证文章质量,给大家提供一个好的知识分享平台。

  • 博客(1024)
  • 收藏
  • 关注

转载 面试|不可不知的十大Hive调优技巧最佳实践

Apache Hive是建立在Apache Hadoop之上的数据仓库软件项目,用于提供数据查询和分析。Hive是Hadoop在HDFS上的SQL接口,它提供了类似于SQL的接口来查询存...

2020-11-18 09:00:00 28

原创 面试|spark刷爆磁盘与java弱引用的关系

一 引用基本概念如下面,定义两个变量num,str,存储模型大致如下图:int num = 6;String str = “浪尖聊大数据”;变量num值直接从6修改为了8;变量str...

2020-11-11 08:35:34 29

转载 Hbase Bulkload 原理|面试必备

当需要大批量的向Hbase导入数据时,我们可以使用Hbase Bulkload的方式,这种方式是先生成Hbase的底层存储文件 HFile,然后直接将这些 HFile 移动到Hbase的...

2020-11-10 08:59:49 32

原创 漫画|讲解一下如何写简历&项目

star法写项目的案例:深圳浪尖聊大数据有限公司2018.3-至今日志中心建设项目周期2020.2.10-2020.4.20成就经历简述2020.2.10-2020.5.20,在深圳...

2020-11-06 08:19:00 88

原创 漫画面试回答kafka为何如此之快|满分

一 磁盘读写原理磁盘的结构图:当需要从磁盘读取数据时,要确定读的数据在哪个磁道,哪个扇区:首先必须找到柱面,即磁头需要移动对准相应磁道,这个过程叫做寻道,所耗费时间叫做寻道时间;然后目标...

2020-10-29 08:18:00 1489 9

转载 大数据开源框架技术汇总

主要基于对现阶段一些常用的大数据开源框架技术的整理,只是一些简单的介绍,并不是详细技术梳理。可能会有疏漏,发现再整理。参考的太多,就不一一列出来了。这只是作为一个梳理,对以后选型或者扩展...

2020-10-25 09:38:32 1202 1

原创 漫画讲解Kafka高效的存储设计|面试

在开始讲解之前,先带着大家回忆一下kafka一些名词概念:a. Broker:提供数据存储和数据读写服务实例,一个Kafka节点就是一个broker,多个broker可以组成一个Kafk...

2020-10-22 08:25:00 432

原创 漫画全面解释Spark企业调优点

一:资源配置一般企业中,物理机器的cpu:内存基本上都是1:4+,比如机器24core,一般有128GB及以上内存;48core,一般有256GB及以上内存。减去系统及hdfs所需cor...

2020-10-18 20:43:40 462 4

转载 Shell 命令执行可视化和告警工具

来自:FreeBuf.COM作者:secist链接:https://www.freebuf.com/sectool/212820.htmlSampler是一个用于shell命令执行,可...

2020-12-02 22:22:55 1

转载 这8种常见的SQL错误用法,你还在用吗?

来源 | yq.aliyun.com/articles/72501MySQL 在近几年仍然保持强劲的数据库流行度增长趋势。越来越多的客户将自己的应用建立在 MySQL 数据库之上,甚至是...

2020-12-01 21:40:00 11

转载 为什么跨代引用是GC root

转自:https://www.jianshu.com/p/671495682e46昨日,有人在一个JVM群里问了一个问题,为什么跨代引用是gc root。这虽然是一个很简单的问题,但是其...

2020-12-01 21:40:00 12

转载 如何理解Kafka的消息可靠性策略?

导语 | Kafka作为一款性能优秀的消息队列,主要用于异步、削峰、解耦处理,在分布式事务中有着广泛的应用,但仍有很多开发者在运用过程中存在疑惑。文本将为大家由浅入深剖析Kafka基础原...

2020-11-30 23:45:28 13

转载 了解了吗?程序员必知的这 7 种软件架构模式

架构模式是对给定上下文的软件架构中常见问题的一种通用的可复用的解决方案。一种模式就是特定上下文的问题的一种解决方案。然而,很多开发者至今还对各种软件架构模式之间的差别搞不清,甚至对其所知...

2020-11-29 12:19:00 17

转载 阿里巴巴为什么能抗住90秒100亿?看完这篇你就明白了!

作者:huashiou链接:https://segmentfault.com/a/11900000186261631、概述本文以淘宝作为例子,介绍从一百个并发到千万级并发情况下服务端的架...

2020-11-28 12:00:00

转载 5款强大的JVM 性能调优监控工具 !

原文链接:www.iteye.com/blog/josh-persistence-2161848现实企业级Java应用开发、维护中,有时候我们会碰到下面这些问题:OutOfMemoryE...

2020-11-26 23:31:51 25

转载 一个复杂系统的拆分改造,压力真大!

1 为什么要拆分? 先看一段对话。从上面对话可以看出拆分的理由:1)应用间耦合严重。系统内各个应用之间不通,同样一个功能在各个应用中都有实现,后果就是改一处功能,需要同时改系统中的所...

2020-11-26 23:31:51 15

转载 数据湖存储架构选型

作者简介郑锴,花名铁杰,阿里巴巴高级技术专家,Apache Hadoop PMC。深耕分布式系统开发和开源大数据多年,目前专注于在阿里云上研发业界领先的 Hadoop/Spark 大数据...

2020-11-25 23:41:00 28

转载 有必要做 Code Review 吗???

作者:梨香链接:https://juejin.im/post/6882333635203039239众所周知,Code Review是开发过程中一个非常重要的环节,但是很多公司或者团...

2020-11-25 23:41:00 13

转载 为什么Redis要比Memcached更火?

来源:http://kaito-kidd.com/2020/06/28/redis-vs-memcached/前言我们都知道,Redis和Memcached都是内存数据库,它们的访问速度...

2020-11-24 18:00:00 12

转载 13 张图解 Java 中的内存模型

作者:Carson_Ho链接:juejin.im/post/6844903677279338509前言了解Java中的对象、变量等存放的内存区域十分重要本文将全面讲解Java虚拟机中...

2020-11-24 18:00:00 12

转载 数据仓库架构和建设方法论

1.数据仓库概要1.1.数据仓库起因在建设数据仓库之前,数据散落在企业各部门应用的数据存储中,它们之间有着复杂的业务连接关系,从整体上看就如一张巨大的蜘蛛网:结构上错综复杂,却又四通八达...

2020-11-23 17:56:00 41

转载 IntelliJ IDEA 构建maven多模块工程项目

来源:blog.csdn.net/sinat_34344123食用前须知创建步骤 (详细多图)1. 创建一个空项目2.创建第一个模块3.创建第二个模块总结1 食用前需知本文以a b c ...

2020-11-23 17:56:00 12

转载 华为数据治理实践

转自:AI启蒙者文章作者:华为公司数据管理部内容来源:节选自《华为数据之道》导读:2017 年华为提出了企业的新愿景:"把数字世界带入每个人、每个家庭、每个组织,构建万物互联的智...

2020-11-22 22:00:00 114

转载 delete、truncate、drop的区别有哪些,该如何选择?

上周同事小姐姐问我:“哈哥你看,我发现MySQL有bug,我下午为了清理磁盘,明明删除了100万条MySQL数据,磁盘不仅没有变小,反而更满了呢??”那你是怎么删除的?“delete f...

2020-11-22 22:00:00 29

转载 SQL 性能优化,太太太太太太太有用了!

Cat哥领读:针对mysql,说了很多优化的点,收藏就好,哈哈哈哈~wolearnjuejin.im/post/59b11ba151882538cb1ecbd0前言本文主要针对的是关系型...

2020-11-21 17:20:00 26

转载 如何构建一个好的电商搜索引擎?

分享嘉宾:邢少敏第四范式 架构师编辑整理:刘员京出品平台:DataFunTalk导读:机器学习算法的不断进步,搜索引擎巧妙的人机交互设计,分布式系统的革新让搜索引擎在不知不觉中成为人们...

2020-11-21 17:20:00 53

转载 我差点去字节跳动做算法了!

大家好,我是程序猿尖。我一直不知道我在大家心目中的定位是什么,但我内心其实是把自己定义为一个『工具人』的。可能是因为我自己本身就是程序员,所以更能理解程序员的不易吧。所以,我尽量不写水文...

2020-11-20 08:30:00 51

转载 京东EB级全域大数据平台的演进与治理历程

本文根据包勇军老师在〖2020 DAMS中国数据智能管理峰会〗现场演讲内容整理而成。(点击文末“阅读原文”可获取完整PPT)讲师介绍包勇军,目前在京东任职数据基础平台部、广告质量部、推荐...

2020-11-20 08:30:00 53

转载 程序员翻车时的30种常见反应

前言软件开发工作充满了挑战性。人无完人,对于程序员来说,写出有 bug 的代码是在所难免的。有些人很淡定,也有一些人会感到生气、沮丧、不安或气馁。在修复 bug 的过程中我们都经历了什么...

2020-11-19 08:20:00 44

转载 了解GFS和HDFS后,要懂得分布式文件系统设计原理

转自:https://www.jianshu.com/p/fc0aa34606ce一、概述分布式文件系统是分布式领域的一个基础应用,其中最著名的毫无疑问是 HDFS/GFS 。如今该领域...

2020-11-16 22:47:35 34

转载 别用 Date 了,使用 Java8 日期处理的新特性,真香!

简介 伴随lambda表达式、streams以及一系列小优化,Java 8 推出了全新的日期时间API。Java处理日期、日历和时间的不足之处:将 java.util.Date 设定...

2020-11-16 22:47:35 28

转载 给IDEA换个酷炫的主题,这个有点哇塞啊!

作者:CodeWhite7地址:blog.csdn.net/weixin_46146269/article/details/104793277IntelliJ IDEA介绍IDEA,全称...

2020-11-15 22:06:00 19

转载 Apache Kylin 在中通快递的实践

摘要·Apache Kylin 在中通是如何落地的,又是怎样赋能中通快递实现 OLAP 分析能力起飞的?本文从多方面对比了 Presto 和 Kylin 的优缺点,并从业务场景、调度...

2020-11-15 22:06:00 69

转载 StackOverflow热帖:Java整数相加溢出怎么办?

作者 |Aaron_涛来源 |blog.csdn.net/qq_33330687/article/details/81626157# 问题在之前刷题的时候遇见一个问题,需要解决int...

2020-11-14 16:53:44 20

转载 百亿级实时计算系统性能优化–—Elasticsearch篇

导语 | 随着业务的发展,系统日益复杂,功能愈发强大,用户数量级不断增多,设备cpu、io、带宽、成本逐渐增加,当发展到某个量级时,这些因素会导致系统变得臃肿不堪,服务质量难以保障,系统...

2020-11-14 16:53:44 196

转载 Kafka如何在千万级别时优化JVM GC问题?

来源 |https://www.toutiao.com/i6828068581758992907/大家都知道Kafka是一个高吞吐的消息队列,是大数据场景首选的消息队列,这种场景就意味...

2020-11-13 08:00:00 21

转载 StringBuider 在什么条件下使用效率更高?

来源 |cnblogs.com/keatsCoder/p/13212289.html引言都说 StringBuilder 在处理字符串拼接上效率要强于 String,但有时候我们的理解...

2020-11-13 08:00:00 15

转载 我们常用的 Integer 内部为什么会去实现 Comparable 接口?

作者巫师大人来源 blog.csdn.net/ysj4428/article/details/81195846今天在开发中无意看到Integer包装类内部实现了Comparable接口...

2020-11-12 08:23:00 21

转载 埋点治理:如何把App埋点做到极致?

导语本文基于实际场景业务需求,通过切面化、平台化、动态化探讨埋点治理方案,把App埋点做到极致,具有一定的实践意义,希望对大家有所帮助和启发。背景埋点日志的统计,数据的分析,直接影响产品...

2020-11-09 17:31:09 101

转载 面试官问:什么是负载均衡?跟他扯了40分钟

来源 |https://urlify.cn/FBRjyi在网站创立初期,我们一般都使用单台机器对台提供集中式服务,但随着业务量越来越大,无论性能还是稳定性上都有了更大的挑战。这时候我们...

2020-11-08 12:41:22 49

空空如也

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除