自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

SunnyRivers

别以为自己到了极限,那可能只是别人的起点!

  • 博客(17)
  • 资源 (9)
  • 收藏
  • 关注

原创 Spark源码阅读环境搭建

前言对于Spark的应用,仅仅会使用期API来编程只能达到初级(助理)工程师或中级(熟练)工程师的水平,而学会调优则可以让你进阶为高级工程师。那么怎么才能成为顶尖的工程师呢?源码!准备工作(1)下载IDEA (2)配置Scala2.11 (3)配置Maven (4)下载Spark源码详细步骤(1)官网下载 (2)打开IDEA,单击Import Project,并选择...

2018-08-28 10:31:55 1026

转载 Spark性能优化指南——高级篇

前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。数据倾斜调优调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题...

2018-08-27 16:55:11 505

转载 Spark性能优化指南——基础篇

本来想自己总结调优,但是涉及的面有点广,现在网上转载最多的莫过于美团2016年写的那两篇博客了,写的很详细,但是我在实际开发中不是所有的都验证过,先转了,完了有时间进行进一步验证前言在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范...

2018-08-27 16:18:34 555

原创 Spark提交任务参数详解

先看官网提供的两个提交例子(只看集群模式)# Run on a Spark standalone cluster in cluster deploy mode with supervise./bin/spark-submit \ --class org.apache.spark.examples.SparkPi \ --master spark://207.184.161.138:7...

2018-08-26 23:00:53 2474

原创 Spark提交代码的两种方式

基于spark1.6测试(虽然很多公司都已经在用2.X了,但是1.6我认为是最经典的版本,CDH最新版本至今默认的spark版本依然是1.6,不过2.X提交方式是基本没有变的)Standalone(1)standalone-client提交任务方式提交命令./spark-submit \--master spark://node1:7077 \--class org.apa...

2018-08-26 22:18:08 2087

原创 Linux安装和卸载JDK

安装JDKrpm -vi jdk-xxxx-linux-x64.rpm配置JDK环境变量vi /etc/profileshift +G把光标移动到文件末尾添加如下配置:export JAVA_HOME=/usr/java/jdk1.x.x_xxexport PATH=$JAVA_HOME/bin:$PATHexport CLASSPATH=.:$JAVA_HOMdE...

2018-08-24 15:22:19 270

原创 IDEA Junit测试

第一步:run-Edit Configurations第二步:选择JUnit-Method-输入方法名-OK第三步:Shift+F10(或者点击Run-Run’XXX’)运行即可

2018-08-24 10:41:14 1689

原创 把项目中任意文件夹导出为可执行的jar包

IDEA打包的方法也有很多,常用的当然是Maven打包,但是不用Maven也很容易,接下来介绍我常用的几种打包方式方法一(1)File–Project Structure(快捷键:Ctrl +Alt +Shift +S) (2)选择Artifacts-加号-JAR-Empty (3)填写jar包名称-选择compile output结尾的文件,点击下方OK按钮(这里有个Outp...

2018-08-24 10:33:26 390

原创 IDEA导入jar包

现在很少有人下载jar包,然后导入idea,那是eclipse的做法,但是idea也不是不可以,步骤也很简单,就三步。(1)File–Project Structure(快捷键:Ctrl +Alt +Shift +S)(2)选择Libraries–加号–Java(3)在你本地选择要导入的jar包,一路确定即可。最后需要等待IDEA配置jar包完成就可以使用了。...

2018-08-24 09:21:52 369

原创 绘图工具

作为程序员,会经常记录一些知识,并且使用绘图的方式更直观的描绘运行流程,以及一些原理,windows自带的绘图工具,真的有点…我常用的绘制流程图的工具有两种Processon这是一款在线绘图工具,使用起来非常简单方便 点击进入官网Viso这是一款体积很小,可以绘制很多中流程图的客户端 点击进入官网...

2018-08-23 22:13:15 535

原创 免秘钥的两种方式

第一种方式(dsa)1.全部节点执行下面三个步骤ssh localssh-keygen -t dsa -P '' -f ~/.ssh/id_dsacat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys2.发送自己的公钥到其他所有节点(这里模拟有四个节点,只在node01节点做示范,其它节点类似)[root@no...

2018-08-21 15:12:14 673

原创 设置时间同步(ntp)详细步骤

所有节点同时操作如下步骤1.安装ntpyum install ntp2.配置开机启动chkconfig ntpd on3.检查是否设置成功(2-5为on则为成功)chkconfig --list ntpd4.设置同步(时钟服务器根据实际环境设置、本文采用210.72.145.44-国家授时中心服务器IP地址)ntpdate -u ntp.sjtu.edu.cn...

2018-08-21 11:34:18 2170

原创 一次搭建Spark集群(standalone、yarn、高可用)

摘要内容施舍么

2018-08-20 17:36:26 1117

原创 Mysql8.0.12解压版安装亲测(步骤超级简单)

Mysql8.0.12解压版亲测 1.下载(官方推荐的是下载安装板,但是之前一直用,想试一下解压版,毕竟更简单嘛) https://dev.mysql.com/downloads/mysql/ 2.解压 这就是解压后的目录,但是我们需要在这个基础上做两步小操作 (1)创建一个名为data的文件夹 (2)创建一个名为my.ini的文件 3.修改my.ini文件[mysq...

2018-08-16 14:03:03 4603 2

转载 什么是机器学习

本文转自在本篇文章中,我将对机器学习做个概要的介绍。本文的目的是能让即便完全不了解机器学习的人也能了解机器学习,并且上手相关的实践。这篇文档也算是EasyPR开发的番外篇,从这里开始,必须对机器学习了解才能进一步介绍EasyPR的内核。当然,本文也面对一般读者,不会对阅读有相关的前提要求。  在进入正题前,我想读者心中可能会有一个疑惑:机器学习有什么重要性,以至于要阅读完这篇非常长的文章呢...

2018-08-07 18:10:27 484

原创 Hive分区和分桶

Hive把表组织成分区(partition)。这是一种根据分区列(partition column,如日期)的值对表进行粗略的划分机制。使用分区可以加快数据分片(slice)的查询速度。表或分区可以进一步划分为桶(bucket)。它会为数据提供额外的结构以获取更高效的查询处理。例如,通过根据用户ID来划分桶,我们可以在所有用户集合的随机样本上快速计算基于用户的查询。分桶适用场景:数据抽...

2018-08-06 13:41:59 1974

原创 Hive内部表和外部表

hive创建内部表hive> CREATE TABLE hT1(id INT,name STRING,hobby ARRAY<STRING>,address MAP<STRING,STRING>)    > ROW FORMAT DELIMITED FIELDS TERMINATED BY ','    > COLLECTION ITEMS T...

2018-08-04 17:31:49 4164

SparkMLlib机器学习(黄美玲和王晓华版两本)

SparkMLlib机器学习黄美玲版和SparkMLlib机器学习实战王晓华版,都带目录,很方便阅读,希望能帮助到大家

2018-10-17

CDH-5.13.1安装文档

亲测CDH-5.13.1,希望能够帮助想要使用CDH的同学,文档中有不懂的可以留言

2018-09-03

高等数学(同济大学出版)上下册(高清,带目录)

学习人工智能、大数据高数是必备的专业技能,同济大学出版的高等数学一直是很多高校指定的专用教材

2018-04-18

Spark快速大数据分析和深入解析Spark内核架构设计与实现原理

有这两本书,的确可以把spark技术研究透彻,真心感谢这两位作者

2018-03-28

java最经典的笔记

这是我见过java总结的很屌的培训机构的老师,感谢阳哥笔记,让人对java基础的知识有了更加深刻的理解

2018-02-08

搜题功能,图片文字识别技术

模仿作业帮、猿题库等含有搜题功能的app,自定义相机,图片识别技术的实现,超级简单

2018-01-03

Dialog的正确使用方式

学会如何正确使用Dialog,以及更规范的Dialog模板,和创建的方式。

2017-12-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除