阳肉川

别以为自己到了极限,那可能只是别人的起点!

Spark源码阅读环境搭建

前言 对于Spark的应用,仅仅会使用期API来编程只能达到初级(助理)工程师或中级(熟练)工程师的水平,而学会调优则可以让你进阶为高级工程师。那么怎么才能成为顶尖的工程师呢?源码! 准备工作 (1)下载IDEA (2)配置Scala2.11 (3)配置Maven (4)下载Spark...

2018-08-28 10:31:55

阅读数:56

评论数:0

Spark性能优化指南——高级篇

前言 继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。 数据倾斜调优 调优概述 有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜...

2018-08-27 16:55:11

阅读数:43

评论数:0

Spark性能优化指南——基础篇

本来想自己总结调优,但是涉及的面有点广,现在网上转载最多的莫过于美团2016年写的那两篇博客了,写的很详细,但是我在实际开发中不是所有的都验证过,先转了,完了有时间进行进一步验证 前言 在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了...

2018-08-27 16:18:34

阅读数:40

评论数:0

Spark提交任务参数详解

先看官网提供的两个提交例子(只看集群模式) # Run on a Spark standalone cluster in cluster deploy mode with supervise ./bin/spark-submit \ --class org.apache.spark.exam...

2018-08-26 23:00:53

阅读数:61

评论数:0

Spark提交代码的两种方式

基于spark1.6测试(虽然很多公司都已经在用2.X了,但是1.6我认为是最经典的版本,CDH最新版本至今默认的spark版本依然是1.6,不过2.X提交方式是基本没有变的) Standalone (1)standalone-client提交任务方式 提交命令 ./spark-sub...

2018-08-26 22:18:08

阅读数:76

评论数:0

Linux安装和卸载JDK

安装JDK rpm -vi jdk-xxxx-linux-x64.rpm 配置JDK环境变量 vi /etc/profile shift +G把光标移动到文件末尾添加如下配置: export JAVA_HOME=/usr/java/jdk1.x.x_xx export PATH=...

2018-08-24 15:22:19

阅读数:32

评论数:0

IDEA Junit测试

第一步:run-Edit Configurations 第二步:选择JUnit-Method-输入方法名-OK 第三步:Shift+F10(或者点击Run-Run’XXX’)运行即可

2018-08-24 10:41:14

阅读数:94

评论数:0

把项目中任意文件夹导出为可执行的jar包

IDEA打包的方法也有很多,常用的当然是Maven打包,但是不用Maven也很容易,接下来介绍我常用的几种打包方式 方法一 (1)File–Project Structure(快捷键:Ctrl +Alt +Shift +S) (2)选择Artifacts-加号-JAR-Emp...

2018-08-24 10:33:26

阅读数:86

评论数:0

IDEA导入jar包

现在很少有人下载jar包,然后导入idea,那是eclipse的做法,但是idea也不是不可以,步骤也很简单,就三步。 (1)File–Project Structure(快捷键:Ctrl +Alt +Shift +S) (2)选择Libraries–加号–Java (3)在你本地选...

2018-08-24 09:21:52

阅读数:56

评论数:0

绘图工具

作为程序员,会经常记录一些知识,并且使用绘图的方式更直观的描绘运行流程,以及一些原理,windows自带的绘图工具,真的有点…我常用的绘制流程图的工具有两种 Processon 这是一款在线绘图工具,使用起来非常简单方便 点击进入官网 Viso 这是一款体积很小,可以绘制很多中流程图的客...

2018-08-23 22:13:15

阅读数:36

评论数:0

免秘钥的两种方式

第一种方式(dsa) 1.全部节点执行下面三个步骤 ssh local ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa cat ~/.ssh/id_dsa.pub >&amp...

2018-08-21 15:12:14

阅读数:88

评论数:0

设置时间同步(ntp)详细步骤

所有节点同时操作如下步骤 1.安装ntp yum install ntp 2.配置开机启动 chkconfig ntpd on 3.检查是否设置成功(2-5为on则为成功) chkconfig --list ntpd 4.设置同步(时钟服务器根据实际环境设置、本文采用210.72...

2018-08-21 11:34:18

阅读数:80

评论数:0

一次搭建Spark集群(standalone、yarn、高可用)

摘要内容施舍么

2018-08-20 17:36:26

阅读数:96

评论数:0

IDEA注册码激活方法

我也不知道这个方法是否一直能使用,反正这一年多来一直能用 打开网址: http://idea.congm.in/ 修改系统host文件,win7环境下host文件路径在 系统盘下的 C:\Windows\System32\drivers\etc 在host文件中最后一行添加 0.0.0....

2018-08-16 14:28:05

阅读数:207

评论数:0

Mysql8.0.12解压版安装亲测(步骤超级简单)

Mysql8.0.12解压版亲测 1.下载(官方推荐的是下载安装板,但是之前一直用,想试一下解压版,毕竟更简单嘛) https://dev.mysql.com/downloads/mysql/ 2.解压 这就是解压后的目录,但是我们需要在这个基础上做两步小操作 (1...

2018-08-16 14:03:03

阅读数:1225

评论数:0

什么是机器学习

本文转自 在本篇文章中,我将对机器学习做个概要的介绍。本文的目的是能让即便完全不了解机器学习的人也能了解机器学习,并且上手相关的实践。这篇文档也算是EasyPR开发的番外篇,从这里开始,必须对机器学习了解才能进一步介绍EasyPR的内核。当然,本文也面对一般读者,不会对阅读有相关的前提要求。 ...

2018-08-07 18:10:27

阅读数:58

评论数:0

大数据博客

http://www.iteblog.com/ 过往记忆 http://lxw1234.com/ lxw大数据田地 http://www.aboutyun.com/ about云 http://tech.meituan.com/ 美团技术博客 http://dongxicheng.org/ 董西成

2018-08-06 13:58:48

阅读数:84

评论数:0

Hive分区和分桶

Hive把表组织成分区(partition)。这是一种根据分区列(partition column,如日期)的值对表进行粗略的划分机制。使用分区可以加快数据分片(slice)的查询速度。 表或分区可以进一步划分为桶(bucket)。它会为数据提供额外的结构以获取更高效的查询处理。例如,通过根据用...

2018-08-06 13:41:59

阅读数:59

评论数:0

Hive内部表和外部表

hive创建内部表 hive> CREATE TABLE hT1(id INT,name STRING,hobby ARRAY<STRING>,address MAP<STRING,STRING&am...

2018-08-04 17:31:49

阅读数:312

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭