spark
程序猿小飞
做好自己该做的事。
展开
-
spark的集群搭建:
1.上传压缩包(/usr/local):hadoop-2.6.0-cdh5.7.0.tar.gzjdk-8u144-linux-x64.tar.gzspark-2.2.0-bin-2.6.0-cdh5.7.0.tgz2.减压包:更改spark的目录名mv spark-2.2.0-bin-2.6.0-cdh5.7.0 spark3.设置环境配置:export SPARK_HOME...原创 2019-02-27 16:24:41 · 110 阅读 · 0 评论 -
WordCount在spark运行
需要提前准备Hadoop的集群和是spark集群!!!WordCount在本地运行package com.ect.scalaimport org.apache.spark.{SparkConf, SparkContext}object WordCountScala { def main(args: Array[String]): Unit = { val conf = new...原创 2019-02-28 17:03:29 · 129 阅读 · 0 评论 -
Linux中nc的安装 测试 nc -lk 9999
在Linux中有一个级强大的网络工具netcat,在默认情况下面都是没有安装的,现在介绍一下安装过程其实安装很简单只需输入命令:[root@SZB-L0032015 ~]# yum install -y nc在一个终端上 输入: nc -lk 9999 socket closed解决办法(端口被占用)进入DOS1、netstat -ano 找到被占用的端口 PID;...原创 2019-03-29 15:14:23 · 4562 阅读 · 0 评论 -
Spark中DataFrame的schema讲解
1.Schema是什么DataFrame中提供了详细的数据结构信息,从而使得SparkSQL可以清楚地知道该数据集中包含哪些列,每列的名称和类型各是什么,DataFrame中的数据结构信息,即为schema。2.输出schema 还是用官网中的people.json的文件,输出schema,看看schema到底长什么样子。people.json文件的show()在上一篇文章中已经写到,...转载 2019-03-22 17:55:00 · 1403 阅读 · 0 评论 -
spark调优
原创 2019-03-28 14:57:49 · 68 阅读 · 0 评论 -
数据倾斜理解;
数据倾斜的原因和解决方案:原因:数据倾斜是指,map /reduce程序执行时,reduce节点大部分执行完毕,但是有一个或者几个reduce节点运行很慢,导致整个程序的处理时间很长,这是因为某一个key的条数比其他key多很多(有时是百倍或者千倍之多),这条key所在的reduce节点所处理的数据量比其他节点就大很多,从而导致某几个节点迟迟运行不完。方案:1)网上找了下,spark数据倾...原创 2019-04-02 08:54:53 · 316 阅读 · 0 评论 -
spark的优化
1.Spark性能优化技术Spark的性能优化,主要手段包括:1、使用高性能序列化类库2、优化数据结构3、对多次使用的RDD进行持久化 / Checkpoint4、使用序列化的持久化级别5、Java虚拟机垃圾回收调优6、提高并行度7、广播共享数据8、数据本地化9、reduceByKey和groupByKey的合理使用10、Shuffle调优(核心中的核心,重中之重)Spar...原创 2019-04-18 11:36:05 · 528 阅读 · 0 评论 -
spark sql
Spark SQL就不只是针对Hive中的数据了,而且可以支持其他很多数据源的查询。Spark SQL的特点1、支持多种数据源:Hive、RDD、Parquet、JSON、JDBC等。2、多种性能优化技术:in-memory columnar storage、byte-code generation、cost model动态评估等。3、组件扩展性:对于SQL的语法解析器、分析器以及优化器,...原创 2019-04-18 13:55:17 · 142 阅读 · 0 评论 -
颠覆大数据分析之Spark弹性分布式数据集
http://ifeve.com/beyond-hadoop-big-data-analytics-2-2-1/转载 2019-06-16 18:54:01 · 89 阅读 · 0 评论