2017年05月_打怪的蚂蚁

12月 11月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创 JAVA基本面试二

一、HashMap的工作原理 HashMap基于hashing原理，我们通过put()和get()方法储存和获取对象。当我们将键值对传递给put()方法时，它调用键对象的hashCode()方法来计算hashcode，然后找到bucket位置来储存值对象。当获取对象时，通过键对象的equals()方法找到正确的键值对，然后返回值对象。HashMap使用LinkedList来解决碰撞问题，

2017-05-25 20:47:08 287

转载 Spark性能优化指南——基础篇

前言在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广泛。在美团•大众点评，已经有很多同学在各种项目中尝试使用Spark。大多数同学（包括笔者在内），最初开始尝试使用Spark的原因很简单，主要就是为了让大数据计算作业的执行速

2017-05-22 19:00:32 248

转载 Spark性能优化指南——高级篇

前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后，本文作为《Spark性能优化指南》的高级篇，将深入分析数据倾斜调优与shuffle调优，以解决更加棘手的性能问题。数据倾斜调优调优概述有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，此时Spark作业的性能会比期望差很多。数据倾斜调优，就是使用各种技术方案解决不同类型的数据

2017-05-22 18:59:13 293

原创 Zeppelin0.6.2安装配置

1.1 下载地址： http://mirrors.tuna.tsinghua.edu.cn/apache/zeppelin/zeppelin-0.6.2/zeppelin-0.6.2-bin-all.tgz 根据下载地址，将zeppelin下载到对应的单板上并解压。 1.2 1.2.1 进入zeppelin-0.6.2-bin-all/conf目录下，复制zeppelin-s

2017-05-17 14:18:55 904

转载别扯了，这世界上根本没有稳定的工作

真正的稳定，不是你在一家单位有饭吃，而是你足够牛逼，不论走到哪里都有饭吃。作者：王耳朵，来源：王耳朵先生（ID：huangezishiba），经授权发布 01 一个人成功地失业需要多久？庞光的答案是：五年。庞光是我的朋友，五年前，大学毕业后，他回到老家最大的国企工作。每天朝九晚五，工资和福利固定

2017-05-16 20:09:22 641

转载谈谈RDD、DataFrame、Dataset的区别和各自的优势

在spark中，RDD、DataFrame、Dataset是最常用的数据类型，本博文给出笔者在使用的过程中体会到的区别和各自的优势共性： 1、RDD、DataFrame、Dataset全都是spark平台下的分布式弹性数据集，为处理超大型数据提供便利 2、三者都有惰性机制，在进行创建、转换，如map方法时，不会立即执行，只有在遇到Action如foreach时，三者才

2017-05-16 20:00:58 1190

转载 Spark日志清洗一般流程(Python版)

Spark 1.6.1 Python 2.7.11 前言整理了一下使用spark来进行日志清洗及数据处理的套路，这里以pyspark为例 pyspark的启动任务套路对于使用spark作为查询清洗工具而言，启动spark的套路主要使用sh文件进行终端带参数启动，启动后开始调用sh传递处理参数，并且构造好sparkconf后传递提交(spark-s

2017-05-16 19:48:13 2358

原创 Hadoop HA模式升级配置

这里仅以两台机器作为参考，配置HA模式，文档中所使用的的zookeeper集群也为ubuntu07和ubuntu08两台节点，实际生产环境建议使用奇数节点。ubuntu07和ubuntu08均配置为namenode节点，其中一台处于standby状态，两台节点均作为datanode节点。 1.1 使用如下命令停止非HA模式下的Hadoop所有进程 stop-all.sh 1.2 修改所有

2017-05-16 16:37:15 1227 1

Joint source

Joint source的资源的专业硕士论文。值得深究！！

2009-09-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人