2019年01月_starkpan

原创 spark优化点

在spark优化hadoop中的思路，就是优化了hadoop的shuffle过程。shuffle落入磁盘，需要将数据序列化。spark已经将shuffle过程优化，在此基础上进一步优化，需要对序列化进行优化一、序列化优化：spark用到序列化的地方1、shuffle时需要将对象写入到外部的临时文件2、每个partition的数据要发送给worker，spark先把RDD包装成tas...

2019-01-27 15:27:10 171

原创 spark之sparkStreaming实时流处理

1、sparkStream官网http://spark.apache.org/streaming/2、什么是sparksreaming？sparkStreamin是一种构建在spark之上的实时计算框架，他扩展了spark处理打过莫流失数据的能力，吞吐量高，容错能力强。（对标hadoop中storm）3、处理数据方式 sparkStreaming将输入的数据按照时间...

2019-01-26 11:58:20 436

原创 spark之sparkSql

1、启动sparkspark-shell --master local[2]2、创建一个简单的RDD val foodRDD = sc.makeRDD(List((1,"大虾","1元"),(2,"大闸蟹","8角"),(3,"三文鱼","5毛")))3、将RDD转换为一个DataFrame(Frame则代表了数据结构) val foodDF = foodRDD.

2019-01-26 09:52:01 180

原创 spark运行过程解析

1、懒执行数据从源头到处理，并不是每一步操作都会立刻执行。在spark操作方法中，分为Transformation与Action两类操作。 transformation：一个方法由RDD调用，执行后产生另一个RDD。 Action：一个方法由RDD调用，执行后不是产生另一个RDD，而是产生一个非RDD的结果，例如collect，count。Transformation方...

2019-01-25 22:46:49 218

原创 spark分布式数据集RDD 的创建

1、启动sparkspark-shell --master local[2]2、创建一个最简单的RDDval rdd = sc.makeRDD(List(1,2,3,4,5));3、查看RDDrdd.collect()返回res0: Array[Int] = Array(1, 2, 3, 4, 5)4、RDD指定分区(这样9个数据，就放在了3个分区中)val...

2019-01-25 16:38:57 273

原创 spark初识

spark官网http://spark.apache.orghadoop缺陷：hadoop处理流程较为复杂，在map-reduce过程中需要不断的将数据落入磁盘，造成性能低下。spark优化：基于内存进行计算，尽量不落地，提高效率。达到hadoop的10-100倍处理速度。spark设计：基于actor模式的akka框架，代码结构简洁。基于DAG（有向无环图）...

2019-01-25 15:03:26 181 1

原创 scala 伴生对象的作用

1、什么是伴生对象scala中的类不能定义静态成员，而代之以定义单例对象来替代单例对象通过object关键字来声明单例对象中的所有方法，可以直接通过object单例对象的名字直接来调用。一个单例对象可以绑定在一个类，当单例对象和某个类写在同一个源文件且共享一个名字，它们就产生了绑定关系。此时单例对象称之为该类的伴生对象，类称之为该对象的伴生类。object food { def...

2019-01-24 21:14:16 6059 3

原创 mapReduce浅析

MapReduce分为两个阶段：Mapper和Reducer，用户只需要实现map()和reduce()两个函数，即可实现分布式计算。两个工作节点为ResourceManager，NodeManager。ResourceManager工作职能：1、管理nodeManager2、检测NodeManager状态变换，通过RPC心跳实现。3、任务的分配和调度，做到细粒度任务分配，比...

2019-01-24 16:29:51 369

原创 hadoop文件保存（HDFS）原理浅析

hdfs组成hdfs由NameNode、secondNameNode与DataNode组成。DataNode存储真实的数据(1台真实的服务器为1个dataNode)NameNode记录文件、block、DataNode之间的映射关系，保存在内存和磁盘之中各一份。SecondNameNode合并操作日志，协助NameNode存储过程一个大文件存储到hdfs中，会首...

2019-01-24 08:12:42 1525

原创 scala中函数使用

1、定义一个函数为成员变量val cook1 = (food1:String,food2:String)=>{println("我要做"+food1+","+food2)}2、把一个函数当做一个方法传入1、方法cookHamburger，传入三个参数food1，food2，与一个函数cookMethoddef cookHamburger(food1:String,food2...

2019-01-23 17:23:50 198

原创 scala之柯里化

scala中可以定义一个函数 //1.柯里化，注意cookFood与cookFood1、cookFood2是同一个方法，但是参数展示的形式被分开，这就是柯里化。def cookFood(potato:String,tomato:String,cook:(String)=>Unit): Unit ={ val food = potato+tomato cook("做熟"+...

2019-01-23 15:13:37 167

原创 centos7 spark standalone 模式搭建

1、先搭建spark local 模式https://blog.csdn.net/starkpan/article/details/864370892、进入spark安装目录conf文件夹cp spark-env.sh.template spark-env.sh3、配置spark-env.sh,添加以下内容SPARK_MASTER_HOST=hadoopOneSPARK...

2019-01-13 22:24:53 404

原创 linux centos7 安装 scala

1、下载对应版本scalawget 官网打开太慢了，总之下载一个scala包2、解压到安装目录tar -xvf scala-2.11.8.tar -C ~/app/3、配置环境变量vi /etc/profile#scalaexport SCALA_HOME=/home/hadoop/app/scala-2.11.8export PATH=$SCALA_HOME/bi...

2019-01-13 21:23:56 537

原创 centos7 spark local 模式搭建

本文背景：linux上新建用户为hadoop，hadoop文件夹下新建文件夹app1、下载spark，我这里采用了自己编译的spark版本,解压到对应目录tar -zxvf spark-2.1.0-bin-2.6.0-cdh5.7.0.tgz -C ~/app/2、配置环境变量export SPARK_HOME=/home/hadoop/app/spark-2.1.0-bin...

2019-01-13 21:09:45 328

原创 linux 常用命令安装

1、安装wget，用来通过链接下载软件yum install -y wget2、安装vim，文本编辑器yum install vim3、安装telnetyum install telnet4、安装netstate，查看端口yum install netstate ...

2019-01-12 17:46:39 1428 2

原创 cenos7 常见错误 Failed to set locale, defaulting to C

错误描述使用yum报错：Failed to set locale, defaulting to C查看问题： locale解决问题：echo "export LC_ALL=en_US.UTF-8" >> /etc/profilesource /etc/profile

2019-01-12 16:59:45 1435

原创 centOS7 安装hive

1、安装hadoop，参考hadoop伪分布式搭建https://blog.csdn.net/starkpan/article/details/854704332、下载hive，注意hive版本与hadoop一定要一致wget http://archive.cloudera.com/cdh5/cdh/5/hive-1.1.0-cdh5.7.0.tar.gz3、解压到指定目录，随...

2019-01-09 22:31:39 907

原创 linux centos7 从零搭建Hadoop+zookeeper高可用集群（六台虚拟机）详细

创建六台linux centos7(redhat)虚拟机，起名分别为hadoop001，hadoop002，hadoop003，hadoop004，hadoop005，hadoop006创建用户hadoop，设置为sudo用户。1、关闭防火墙2、配置主机名3、配置hosts4、配置密码互通5、安装jdk1.86、安装hadoop以上参看hadoop单节点安装（注意...

2019-01-06 22:47:37 643

原创 linux centOs7安装zookeeper集群（三台）

linux下新建用户hadoop，赋予sudo权限，在hadoop用户下进行安装配置。（1）下载zookeeperwget http://archive.cloudera.com/cdh5/cdh/5/zookeeper-3.4.5-cdh5.7.0.tar.gz (2)解压到安装目录tar zxvf zookeeper-3.4.5-cdh5.7.0.tar.gz -C ~/...

2019-01-01 21:28:45 532

原创 linux centos7 从零搭建Hadoop离线处理平台（伪分布式模式）详细

hadoop下载网址wget http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5.7.0.tar.gz1、关闭防火墙#停止防火墙，重启后失效sudo systemctl stop firewalld.service #禁用防火墙，重启后依然有效sudo systemctl disable firewalld.ser...

2019-01-01 12:36:33 920

starkpan的博客