自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 资源 (1)
  • 收藏
  • 关注

原创 JAVA基本面试二

一、HashMap的工作原理 HashMap基于hashing原理,我们通过put()和get()方法储存和获取对象。当我们将键值对传递给put()方法时,它调用键对象的hashCode()方法来计算hashcode,然后找到bucket位置来储存值对象。当获取对象时,通过键对象的equals()方法找到正确的键值对,然后返回值对象。HashMap使用LinkedList来解决碰撞问题,

2017-05-25 20:47:08 287

转载 Spark性能优化指南——基础篇

前言 在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学(包括笔者在内),最初开始尝试使用Spark的原因很简单,主要就是为了让大数据计算作业的执行速

2017-05-22 19:00:32 248

转载 Spark性能优化指南——高级篇

前言 继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。 数据倾斜调优 调优概述 有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据

2017-05-22 18:59:13 293

原创 Zeppelin0.6.2安装配置

1.1 下载地址: http://mirrors.tuna.tsinghua.edu.cn/apache/zeppelin/zeppelin-0.6.2/zeppelin-0.6.2-bin-all.tgz 根据下载地址,将zeppelin下载到对应的单板上并解压。 1.2 1.2.1       进入zeppelin-0.6.2-bin-all/conf目录下,复制zeppelin-s

2017-05-17 14:18:55 904

转载 别扯了,这世界上根本没有稳定的工作

真正的稳定,不是你在一家单位有饭吃,而是你足够牛逼,不论走到哪里都有饭吃。 作者:王耳朵,来源:王耳朵先生(ID:huangezishiba),经授权发布 01 一个人成功地失业需要多久? 庞光的答案是:五年。 庞光是我的朋友,五年前,大学毕业后,他回到老家最大的国企工作。 每天朝九晚五,工资和福利固定

2017-05-16 20:09:22 641

转载 谈谈RDD、DataFrame、Dataset的区别和各自的优势

在spark中,RDD、DataFrame、Dataset是最常用的数据类型,本博文给出笔者在使用的过程中体会到的区别和各自的优势   共性: 1、RDD、DataFrame、Dataset全都是spark平台下的分布式弹性数据集,为处理超大型数据提供便利 2、三者都有惰性机制,在进行创建、转换,如map方法时,不会立即执行,只有在遇到Action如foreach时,三者才

2017-05-16 20:00:58 1190

转载 Spark日志清洗一般流程(Python版)

Spark 1.6.1  Python 2.7.11 前言 整理了一下使用spark来进行日志清洗及数据处理的套路,这里以pyspark为例 pyspark的启动任务套路 对于使用spark作为查询清洗工具而言,启动spark的套路主要使用sh文件进行终端带参数启动,启动后开始调用sh传递处理参数,并且构造好sparkconf后传递提交(spark-s

2017-05-16 19:48:13 2358

原创 Hadoop HA模式升级配置

这里仅以两台机器作为参考,配置HA模式,文档中所使用的的zookeeper集群也为ubuntu07和ubuntu08两台节点,实际生产环境建议使用奇数节点。ubuntu07和ubuntu08均配置为namenode节点,其中一台处于standby状态,两台节点均作为datanode节点。 1.1 使用如下命令停止非HA模式下的Hadoop所有进程 stop-all.sh 1.2 修改所有

2017-05-16 16:37:15 1227 1

Joint source

Joint source的资源的专业硕士论文。值得深究!!

2009-09-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除