自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 收藏
  • 关注

原创 spark优化点

在spark优化hadoop中的思路,就是优化了hadoop的shuffle过程。shuffle落入磁盘,需要将数据序列化。spark已经将shuffle过程优化,在此基础上进一步优化,需要对序列化进行优化一、序列化优化:spark用到序列化的地方1、shuffle时需要将对象写入到外部的临时文件2、每个partition的数据要发送给worker,spark先把RDD包装成tas...

2019-01-27 15:27:10 171

原创 spark之sparkStreaming实时流处理

1、sparkStream官网http://spark.apache.org/streaming/2、什么是sparksreaming?sparkStreamin是一种构建在spark之上的实时计算框架,他扩展了spark处理打过莫流失数据的能力,吞吐量高,容错能力强。(对标hadoop中storm)3、处理数据方式 sparkStreaming将输入的数据按照时间...

2019-01-26 11:58:20 436

原创 spark之sparkSql

1、启动sparkspark-shell --master local[2]2、创建一个简单的RDD val foodRDD = sc.makeRDD(List((1,"大虾","1元"),(2,"大闸蟹","8角"),(3,"三文鱼","5毛")))3、将RDD转换为一个DataFrame(Frame则代表了数据结构) val foodDF = foodRDD.

2019-01-26 09:52:01 180

原创 spark运行过程解析

1、懒执行数据从源头到处理,并不是每一步操作都会立刻执行。在spark操作方法中,分为Transformation与Action两类操作。    transformation:一个方法由RDD调用,执行后产生另一个RDD。    Action:一个方法由RDD调用,执行后不是产生另一个RDD,而是产生一个非RDD的结果,例如collect,count。Transformation方...

2019-01-25 22:46:49 218

原创 spark分布式数据集RDD 的创建

1、启动sparkspark-shell --master local[2]2、创建一个最简单的RDDval rdd = sc.makeRDD(List(1,2,3,4,5));3、查看RDDrdd.collect()返回res0: Array[Int] = Array(1, 2, 3, 4, 5)4、RDD指定分区(这样9个数据,就放在了3个分区中)val...

2019-01-25 16:38:57 273

原创 spark初识

spark官网http://spark.apache.orghadoop缺陷:hadoop处理流程较为复杂,在map-reduce过程中需要不断的将数据落入磁盘,造成性能低下。spark优化:基于内存进行计算,尽量不落地,提高效率。达到hadoop的10-100倍处理速度。spark设计:基于actor模式的akka框架,代码结构简洁。基于DAG(有向无环图)...

2019-01-25 15:03:26 181 1

原创 scala 伴生对象的作用

1、什么是伴生对象scala中的类不能定义静态成员,而代之以定义单例对象来替代单例对象通过object关键字来声明单例对象中的所有方法,可以直接通过object单例对象的名字直接来调用。一个单例对象可以绑定在一个类,当单例对象和某个类写在同一个源文件且共享一个名字,它们就产生了绑定关系。此时单例对象称之为该类的伴生对象,类称之为该对象的伴生类。object food { def...

2019-01-24 21:14:16 6059 3

原创 mapReduce浅析

MapReduce分为两个阶段:Mapper和Reducer,用户只需要实现map()和reduce()两个函数,即可实现分布式计算。两个工作节点为ResourceManager,NodeManager。ResourceManager工作职能:1、管理nodeManager2、检测NodeManager状态变换,通过RPC心跳实现。3、任务的分配和调度,做到细粒度任务分配,比...

2019-01-24 16:29:51 369

原创 hadoop文件保存(HDFS)原理浅析

hdfs组成hdfs由NameNode、secondNameNode与DataNode组成。DataNode存储真实的数据(1台真实的服务器为1个dataNode)NameNode记录文件、block、DataNode之间的映射关系,保存在内存和磁盘之中各一份。SecondNameNode合并操作日志,协助NameNode存储过程    一个大文件存储到hdfs中,会首...

2019-01-24 08:12:42 1525

原创 scala中函数使用

1、定义一个函数为成员变量val cook1 = (food1:String,food2:String)=>{println("我要做"+food1+","+food2)}2、把一个函数当做一个方法传入1、方法cookHamburger,传入三个参数food1,food2,与一个函数cookMethoddef cookHamburger(food1:String,food2...

2019-01-23 17:23:50 198

原创 scala之柯里化

scala中可以定义一个函数 //1.柯里化,注意cookFood与cookFood1、cookFood2是同一个方法,但是参数展示的形式被分开,这就是柯里化。def cookFood(potato:String,tomato:String,cook:(String)=>Unit): Unit ={ val food = potato+tomato cook("做熟"+...

2019-01-23 15:13:37 167

原创 centos7 spark standalone 模式搭建

1、先搭建spark local 模式https://blog.csdn.net/starkpan/article/details/864370892、进入spark安装目录conf文件夹cp spark-env.sh.template spark-env.sh3、配置spark-env.sh,添加以下内容SPARK_MASTER_HOST=hadoopOneSPARK...

2019-01-13 22:24:53 404

原创 linux centos7 安装 scala

1、下载对应版本scalawget 官网打开太慢了,总之下载一个scala包2、解压到安装目录tar -xvf scala-2.11.8.tar -C ~/app/3、配置环境变量vi /etc/profile#scalaexport SCALA_HOME=/home/hadoop/app/scala-2.11.8export PATH=$SCALA_HOME/bi...

2019-01-13 21:23:56 536

原创 centos7 spark local 模式搭建

本文背景:linux上新建用户为hadoop,hadoop文件夹下新建文件夹app1、下载spark,我这里采用了自己编译的spark版本,解压到对应目录tar -zxvf spark-2.1.0-bin-2.6.0-cdh5.7.0.tgz -C ~/app/2、配置环境变量export SPARK_HOME=/home/hadoop/app/spark-2.1.0-bin...

2019-01-13 21:09:45 328

原创 linux 常用命令安装

1、安装wget,用来通过链接下载软件yum install -y wget2、安装vim,文本编辑器yum install vim3、安装telnetyum install telnet4、安装netstate,查看端口yum install netstate ...

2019-01-12 17:46:39 1428 2

原创 cenos7 常见错误 Failed to set locale, defaulting to C

错误描述使用yum报错:Failed to set locale, defaulting to C查看问题: locale解决问题:echo "export LC_ALL=en_US.UTF-8" >> /etc/profilesource /etc/profile 

2019-01-12 16:59:45 1435

原创 centOS7 安装hive

1、安装hadoop,参考hadoop伪分布式搭建https://blog.csdn.net/starkpan/article/details/854704332、下载hive,注意hive版本与hadoop一定要一致wget http://archive.cloudera.com/cdh5/cdh/5/hive-1.1.0-cdh5.7.0.tar.gz3、解压到指定目录,随...

2019-01-09 22:31:39 907

原创 linux centos7 从零搭建Hadoop+zookeeper高可用集群(六台虚拟机)详细

创建六台linux centos7(redhat)虚拟机,起名分别为hadoop001,hadoop002,hadoop003,hadoop004,hadoop005,hadoop006创建用户hadoop,设置为sudo用户。1、关闭防火墙2、配置主机名3、配置hosts4、配置密码互通5、安装jdk1.86、安装hadoop以上参看hadoop单节点安装(注意...

2019-01-06 22:47:37 643

原创 linux centOs7安装zookeeper集群(三台)

linux下新建用户hadoop,赋予sudo权限,在hadoop用户下进行安装配置。(1)下载zookeeperwget http://archive.cloudera.com/cdh5/cdh/5/zookeeper-3.4.5-cdh5.7.0.tar.gz  (2)解压到安装目录tar zxvf zookeeper-3.4.5-cdh5.7.0.tar.gz -C ~/...

2019-01-01 21:28:45 532

原创 linux centos7 从零搭建Hadoop离线处理平台(伪分布式模式)详细

hadoop下载网址wget http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5.7.0.tar.gz1、关闭防火墙#停止防火墙,重启后失效sudo systemctl stop firewalld.service #禁用防火墙,重启后依然有效sudo systemctl disable firewalld.ser...

2019-01-01 12:36:33 920

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除