2018年08月_SunnyRivers

12月 09月 08月 07月 05月 04月 03月 01月

原创 Spark源码阅读环境搭建

前言对于Spark的应用，仅仅会使用期API来编程只能达到初级（助理）工程师或中级（熟练）工程师的水平，而学会调优则可以让你进阶为高级工程师。那么怎么才能成为顶尖的工程师呢？源码！准备工作（1）下载IDEA （2）配置Scala2.11 （3）配置Maven （4）下载Spark源码详细步骤（1）官网下载（2）打开IDEA，单击Import Project，并选择...

2018-08-28 10:31:55 1026

转载 Spark性能优化指南——高级篇

前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后，本文作为《Spark性能优化指南》的高级篇，将深入分析数据倾斜调优与shuffle调优，以解决更加棘手的性能问题。数据倾斜调优调优概述有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，此时Spark作业的性能会比期望差很多。数据倾斜调优，就是使用各种技术方案解决不同类型的数据倾斜问题...

2018-08-27 16:55:11 505

转载 Spark性能优化指南——基础篇

本来想自己总结调优，但是涉及的面有点广，现在网上转载最多的莫过于美团2016年写的那两篇博客了，写的很详细，但是我在实际开发中不是所有的都验证过，先转了，完了有时间进行进一步验证前言在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范...

2018-08-27 16:18:34 555

原创 Spark提交任务参数详解

先看官网提供的两个提交例子（只看集群模式）# Run on a Spark standalone cluster in cluster deploy mode with supervise./bin/spark-submit \ --class org.apache.spark.examples.SparkPi \ --master spark://207.184.161.138:7...

2018-08-26 23:00:53 2474

原创 Spark提交代码的两种方式

基于spark1.6测试（虽然很多公司都已经在用2.X了，但是1.6我认为是最经典的版本，CDH最新版本至今默认的spark版本依然是1.6，不过2.X提交方式是基本没有变的）Standalone（1）standalone-client提交任务方式提交命令./spark-submit \--master spark://node1:7077 \--class org.apa...

2018-08-26 22:18:08 2087

原创 Linux安装和卸载JDK

安装JDKrpm -vi jdk-xxxx-linux-x64.rpm配置JDK环境变量vi /etc/profileshift +G把光标移动到文件末尾添加如下配置：export JAVA_HOME=/usr/java/jdk1.x.x_xxexport PATH=$JAVA_HOME/bin:$PATHexport CLASSPATH=.:$JAVA_HOMdE...

2018-08-24 15:22:19 270

原创 IDEA Junit测试

第一步：run-Edit Configurations第二步：选择JUnit-Method-输入方法名-OK第三步：Shift+F10（或者点击Run-Run’XXX’）运行即可

2018-08-24 10:41:14 1689

原创把项目中任意文件夹导出为可执行的jar包

IDEA打包的方法也有很多，常用的当然是Maven打包，但是不用Maven也很容易，接下来介绍我常用的几种打包方式方法一（1）File–Project Structure（快捷键：Ctrl +Alt +Shift +S）（2）选择Artifacts-加号-JAR-Empty （3）填写jar包名称-选择compile output结尾的文件，点击下方OK按钮（这里有个Outp...

2018-08-24 10:33:26 390

原创 IDEA导入jar包

现在很少有人下载jar包，然后导入idea，那是eclipse的做法，但是idea也不是不可以，步骤也很简单，就三步。（1）File–Project Structure（快捷键：Ctrl +Alt +Shift +S）（2）选择Libraries–加号–Java（3）在你本地选择要导入的jar包，一路确定即可。最后需要等待IDEA配置jar包完成就可以使用了。...

2018-08-24 09:21:52 369

原创绘图工具

作为程序员，会经常记录一些知识，并且使用绘图的方式更直观的描绘运行流程，以及一些原理，windows自带的绘图工具，真的有点…我常用的绘制流程图的工具有两种Processon这是一款在线绘图工具，使用起来非常简单方便点击进入官网Viso这是一款体积很小，可以绘制很多中流程图的客户端点击进入官网...

2018-08-23 22:13:15 535

第一种方式（dsa）1.全部节点执行下面三个步骤ssh localssh-keygen -t dsa -P '' -f ~/.ssh/id_dsacat ~/.ssh/id_dsa.pub &amp;amp;amp;amp;gt;&amp;amp;amp;amp;gt; ~/.ssh/authorized_keys2.发送自己的公钥到其他所有节点(这里模拟有四个节点,只在node01节点做示范，其它节点类似)[root@no...

2018-08-21 15:12:14 673

原创设置时间同步（ntp）详细步骤

所有节点同时操作如下步骤1.安装ntpyum install ntp2.配置开机启动chkconfig ntpd on3.检查是否设置成功（2-5为on则为成功）chkconfig --list ntpd4.设置同步（时钟服务器根据实际环境设置、本文采用210.72.145.44-国家授时中心服务器IP地址）ntpdate -u ntp.sjtu.edu.cn...

2018-08-21 11:34:18 2170

原创一次搭建Spark集群（standalone、yarn、高可用）

摘要内容施舍么

2018-08-20 17:36:26 1117

原创 Mysql8.0.12解压版安装亲测（步骤超级简单）

Mysql8.0.12解压版亲测 1.下载（官方推荐的是下载安装板，但是之前一直用，想试一下解压版，毕竟更简单嘛） https://dev.mysql.com/downloads/mysql/ 2.解压这就是解压后的目录，但是我们需要在这个基础上做两步小操作（1）创建一个名为data的文件夹（2）创建一个名为my.ini的文件 3.修改my.ini文件[mysq...

2018-08-16 14:03:03 4603 2

转载什么是机器学习

本文转自在本篇文章中，我将对机器学习做个概要的介绍。本文的目的是能让即便完全不了解机器学习的人也能了解机器学习，并且上手相关的实践。这篇文档也算是EasyPR开发的番外篇，从这里开始，必须对机器学习了解才能进一步介绍EasyPR的内核。当然，本文也面对一般读者，不会对阅读有相关的前提要求。　　在进入正题前，我想读者心中可能会有一个疑惑：机器学习有什么重要性，以至于要阅读完这篇非常长的文章呢...

2018-08-07 18:10:27 484

原创 Hive分区和分桶

Hive把表组织成分区（partition）。这是一种根据分区列（partition column，如日期）的值对表进行粗略的划分机制。使用分区可以加快数据分片（slice）的查询速度。表或分区可以进一步划分为桶（bucket）。它会为数据提供额外的结构以获取更高效的查询处理。例如，通过根据用户ID来划分桶，我们可以在所有用户集合的随机样本上快速计算基于用户的查询。分桶适用场景：数据抽...

2018-08-06 13:41:59 1974

原创 Hive内部表和外部表

hive创建内部表hive> CREATE TABLE hT1(id INT,name STRING,hobby ARRAY<STRING>,address MAP<STRING,STRING>) > ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' > COLLECTION ITEMS T...

2018-08-04 17:31:49 4164