Spark
文章平均质量分 93
gmHappy
从不敢夜郎自大,但也不至于妄自菲薄,只是想做一个靠本事吃饭的手艺人
展开
-
java -jar 运行spark程序出现问题汇总及解决方案
java.io.IOException: No FileSystem for scheme: file原因:在hadoop-commons和hadoop-hdfs两个jar文件中,在META-INFO/services下包含相同的文件名org.apache.hadoop.fs.FileSystem,而我们使用maven-assembly-plugin时,最终只有一个文件被保留,所以被重写的那个文件系统就无法找到。解决方案:JavaSparkContext sc = new JavaSpark原创 2020-08-31 10:18:41 · 1147 阅读 · 0 评论 -
基于hadoop.version=2.6.0-cdh5.16.2 编译Spark源码及集群部署
源码下载官网上下载Spark源代码:http://spark.apache.org/downloads.html我选择的2.4.6版本wget -t 0 -c https://mirror.bit.edu.cn/apache/spark/spark-2.4.6/spark-2.4.6.tgz 解压到指定目录tar -xvf spark-2.4.6.tgz -C /opt/修改pom.xml文件修改项目的pom.xml,新增如下代码:<repository> <i原创 2020-08-24 18:00:22 · 594 阅读 · 0 评论 -
Spark2.0基于广播变量broadcast实现实时数据按天统计
package com.gm.hive.SparkHive;import java.text.SimpleDateFormat;import java.util.Arrays;import java.util.Collection;import java.util.Date;import java.util.HashMap;import java.util.List;import...原创 2018-05-08 16:04:07 · 4786 阅读 · 0 评论 -
Sprak2.0 Streaming消费Kafka数据实时计算及运算结果保存数据库代码示例
package com.gm.hive.SparkHive;import java.util.Arrays;import java.util.Collection;import java.util.HashMap;import java.util.List;import java.util.Map;import java.util.Properties;import org.ap...原创 2018-05-07 14:42:07 · 2956 阅读 · 0 评论 -
Spark2.0 Java实现将Hive运算结果保存到数据库
package com.gm.hive.SparkHive;import org.apache.spark.sql.Dataset;import org.apache.spark.sql.Row;import org.apache.spark.sql.SaveMode;import org.apache.spark.sql.SparkSession;import java.util.P...原创 2018-05-07 11:35:30 · 4749 阅读 · 0 评论 -
Spark MLlib机器学习(一)——决策树
决策树模型,适用于分类、回归。 简单地理解决策树呢,就是通过不断地设置新的条件标准对当前的数据进行划分,最后以实现把原始的杂乱的所有数据分类。就像下面这个图,如果输入是一大堆追求一个妹子的汉子,妹子内心里有个筛子,最后菇凉也就决定了和谁约(举栗而已哦,不代表什么~大家理解原理重要~~)训练数据:0,32 帅 收入中等 不是公务员1,25 帅 收入中等 是公务员0,25 帅 收入中等 不是公务员...原创 2018-05-18 15:19:23 · 2338 阅读 · 0 评论 -
Spark2.0集成Hive操作的相关配置与注意事项
前言已完成安装Apache Hive,具体安装步骤请参照,Linux基于Hadoop2.8.0集群安装配置Hive2.1.1及基础操作补充说明Hive中metastore(元数据存储)的三种方式:内嵌Derby方式Local方式Remote方式[一]、内嵌Derby方式这个是Hive默认的启动模式,一般用于单元测试,这种存储方式有一个缺点:在同一时间只能有一个进程连接使用数据库。配置文件 hive...原创 2018-05-05 13:14:48 · 3530 阅读 · 0 评论 -
Spark 计算人员三度关系
1、一度人脉:双方直接是好友 2、二度人脉:双方有一个以上共同的好友,这时朋友网可以计算出你们有几个共同的好友并且呈现数字给你。你们的关系是: 你->朋友->陌生人 3、三度人脉:即你朋友的朋友的朋友就是这个陌生人。你们的关系是 你->朋友->朋友->陌生人 4、四度人脉:比三度增加一度,你们的关系是,你->朋友->朋友->朋友->...原创 2018-05-17 13:09:22 · 5736 阅读 · 4 评论 -
总结可用的大数据分析软件对应版本
apache-flume-1.8.0-bin、kafka_2.11-0.10.0.0、spark-2.0.0-bin-hadoop2.7hadoop-2.8.0、hbase-1.2.6、apache-hive-2.1.1-bin、zookeeper-3.4.10、sqoop-1.4.7.bin__hadoop-2.6.0apache-storm-1.1.0未完待续......原创 2018-05-04 11:19:40 · 2933 阅读 · 0 评论 -
Spark 计算人员二度关系
数据格式如下:A,BA,CA,EB,DE,DC,FF,G业务逻辑如下:1、转换操作flatMapToPair将行数据变为键值对,如A,B表示A和B认识,A可以通过B认识B的朋友,B通过A可以认识A的朋友,转化结果为{A:A,B}、{B:B,A};2、转换操作groupByKey对键值对按Key进行分组,转化结果为:{A,【A,B ,A,E , A,C 】}...;3、转成操作flatM...原创 2018-05-17 11:35:25 · 5124 阅读 · 0 评论 -
Spark集成Kafka实时流计算Java案例
package com.test;import java.util.*;import org.apache.spark.SparkConf;import org.apache.spark.TaskContext;import org.apache.spark.api.java.*;import org.apache.spark.api.java.function.*;import o...原创 2018-05-03 16:39:15 · 4208 阅读 · 0 评论