Spark
JasonAndChen
乐观自信
展开
-
Spark的伪分布式与完全分布式
伪分布式配置spark-env.sh 配置slaves 配置如下网页查看 http://bigdata121:8080/ 结果如下spark 的 bin 目录下 ./spark-shell -- master spark://bigdata121:7077完全分布式配置如下step1、修改vi slaves...原创 2019-10-02 20:10:55 · 645 阅读 · 0 评论 -
Spark 操作JSON格式数据
scala> val json=spark.read.json("/opt/data/emp.json")json: org.apache.spark.sql.DataFrame = [comm: string, deptno: bigint ... 6 more fields]scala> json.show+----+------+-----+------+--------...原创 2019-10-06 16:46:59 · 2746 阅读 · 0 评论 -
DataFrame 创建视图 进行两个表之间关联
scala> df1.show+-----+------+---------+----+----------+----+----+------+|empno| ename| job| mgr| hiredate| sal|comm|deptno|+-----+------+---------+----+----------+----+----+------+| 7369|...原创 2019-10-06 12:09:19 · 963 阅读 · 0 评论 -
利用DataFrame操作Sql语句,需要创建视图
scala> val lines=sc.textFile("/opt/data/emp.csv").map(_.split(","))lines: org.apache.spark.rdd.RDD[Array[String]] = MapPartitionsRDD[8] at map at <console>:24scala> lines.collectres2: ...原创 2019-10-06 11:51:37 · 475 阅读 · 0 评论 -
DataFrame操作数据
scala> val lines=sc.textFile("/opt/data/emp.csv").map(_.split(","))lines: org.apache.spark.rdd.RDD[Array[String]] = MapPartitionsRDD[8] at map at <console>:24scala> lines.collectres2: ...原创 2019-10-06 11:44:01 · 170 阅读 · 0 评论 -
创建DataFrame的几种方式
第一种方式:使用case class样本类 (1)定义表的schema 7698,BLAKE,MANAGER,7839,1981/5/1,2850,0,30 case class Emp(empno:Int,ename:String,job:String,mgr:Int,h...原创 2019-10-05 22:06:02 · 670 阅读 · 0 评论 -
Spark RDD 的检查点--一种容错机制
step1、进入spark-shellstep2、scala> sc.setCheckpointDir("hdfs://bigdata121:9000/sparkckpt1004")设置完成后会生成,检查点目录step3、设置RDD的checkpointscala> rdd.checkpoint<console>:24: error: not f...原创 2019-10-04 13:51:28 · 854 阅读 · 0 评论 -
Spark rdd 操作说明
注:如果是本地测试的话,只能有一个worker,不然的话就会报错scala> val rdd1=sc.textFile("/opt/spark_test_data/word.txt")rdd1: org.apache.spark.rdd.RDD[String] = /opt/spark_test_data/word.txt MapPartitionsRDD[39] at textFil...原创 2019-10-03 18:29:52 · 390 阅读 · 0 评论 -
Spark shell 统计word count程序
1、启动hdfs2、启动Spark3、进入Spark shellUI界面显示如下4 、在scala命令行中执行如下代码sc.textFile("hdfs://bigdata121:9000/tmp/spark/data.txt").flatMap(_.split("")).map((_,1)).reduceByKey(_+_).saveAsTextFil...原创 2019-10-03 17:20:57 · 260 阅读 · 0 评论 -
Spark的HA
step1:在Spark conf目录的 spark-env.shexport JAVA_HOME=/opt/module/jdk1.8.0_144#export SPARK_MASTER_HOST=bigdata121#export SPARK_MASTER_PORT=7077#export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recov...原创 2019-10-03 10:08:11 · 136 阅读 · 0 评论 -
流式计算框架
流式计算框架,类似于 Storm。常用的实时计算引擎(流式计算) 1、Apache Storm:真正的流式计算 2、Spark Streaming:严格上来说,不是真正的流式计算(实时计算) 把连续的流式数据,当成不连续的RDD来处理 本质:是一个离散计算(不连续的数据) 3、Apache Flink:真正的...原创 2019-10-07 19:13:15 · 1549 阅读 · 0 评论