Spark
千里草竹
这个作者很懒,什么都没留下…
展开
-
Spark版本WordCount
楔子了解Spark ,package cn.zhuzi.spark;import java.io.File;import java.io.IOException;import java.util.Arrays;import java.util.Iterator;import org.apache.commons.io.FileUtils;import org.apache....原创 2018-11-15 15:48:31 · 212 阅读 · 0 评论 -
BigData_A_A_03-YARN-资源管理和任务调度(2)共同好友(spark) 不使用Java集合
楔子spark版本 推荐好友思路把 tom hello cat 通过2次遍历 转为{1=tom:hello,1=tom:cat,0=hello:cat}把上述转为 new Tuple2<String, String>(t.split("=")[1], t.split("=")[0]) 例如把1=tom:hello 转为key Values = (tom:hello):1...原创 2018-12-24 23:48:23 · 155 阅读 · 0 评论 -
Spark(1)
楔子学习《Spark大数据分析技术与实战》我主要是基于java实现,一些scala语言中的例子在java中没找到,就不写了第3章 RDD编程3.2 RDD的特性 Spark在定义和描述RDD的时候,通常会涉及以下五个接口,接口描述partition分区,一个RDD会有一个或者多个分区perferredLocations§对于分区p,返回数据所在优先位...原创 2018-12-30 02:09:42 · 149 阅读 · 0 评论 -
BigData_A_B_01Spark-core-1-wordcount
楔子Spark学习Word countimport java.io.IOException;import java.util.Arrays;import org.apache.ibatis.io.Resources;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.Java...原创 2018-12-30 23:37:34 · 179 阅读 · 0 评论 -
Spark提交任务Initial job has not accepted any resources; check your cluster UI to ensure that workers ar
楔子spark集群提交任务Initial job has not accepted any resources; check your cluster UI to ensure that workers are registered and have sufficient resources问题虚拟机内存 和内核不够大,需要调整本人是16G 的笔记本调整后如图虚拟机配置...原创 2018-12-31 01:24:39 · 11860 阅读 · 0 评论 -
BigData_A_B_01Spark-core-2-集群搭建
楔子spark 集群搭建下载解压配置下载解压后进行配置目前已3台机器作为spark使用had1作为masterhad2 had3 作为 worker使用1 conf/spark-env.shexport HADOOP_CONF_DIR=$HADOOP_HOME/ect/hadoopexport JAVA_HOME=/usr/local/soft/jdkexport SPAR...原创 2018-12-31 10:57:54 · 166 阅读 · 0 评论 -
Spark提交作业找不到jar
楔子Spark 提交作业找不到jarERROR ClientEndpoint:70 - Exception from cluster was: java.nio.file.NoSuchFileException出错提示[root@had4 spark240]# ./bin/spark-submit \> --master spark://had1:7077 \> ...原创 2018-12-31 14:06:15 · 1874 阅读 · 0 评论 -
Spark mapPartitions和map
楔子Spark 两个APImappublic static void mapMethod() { JavaRDD<String> rdd = sc.parallelize(Arrays.asList("hello", "spark", "hadoop", "原创 2018-12-31 14:23:50 · 608 阅读 · 0 评论 -
Spark RDD电影(根据用户年龄段)分析——广播机制
楔子Spark 分析电影使用广播机制查找18岁喜爱的电影Top10。主要是广播机制的使用思路分为2部分:1 是广播 符合年龄的userid ,2是 求Top10第一部分过滤年龄 选取其中符合年龄的userid上述userid 抽取到list中,广播出去第二部分3. 电影转为key-value (电影id,电影名) 转为map4. 评分 转为 key-value ...原创 2019-01-04 23:30:09 · 620 阅读 · 0 评论 -
Spark 广播变量
楔子spark 广播变量广播变量是第二种共享变量(另一个是累加器),广播变量可以让程序高效地向所有工作节点发送一个较大的只读值,以供一个多多个Spark操作使用。比如,如果应用需要向所有节点发送一个较大的只读查询表,甚至是机器学习算法中的一个很大的特征向量,使用广播变量非常方便。 Spark虽然会把闭包中所有引用到的变量发送到工作节点上。但是效率低。原因有二,1是默认的任务发射机制是...原创 2019-01-05 00:01:01 · 274 阅读 · 0 评论 -
BigData_A_B_01Spark-core-3-日志保存和历史服务器以及高可用
楔子spark日志保存 和 历史服务器 以及高可用搭建1 日志保存 和历史服务器配置文件spark-defaults.confspark.eventLog.enabled truespark.eventLog.dir hdfs://had2/spark/data/logspark.history.fs.logDirectory ...原创 2018-12-31 20:56:07 · 161 阅读 · 0 评论 -
Spark 二次排序自定义key 实现(Java)
楔子spark java版本的二次排序实现数据如下2::42::103::61::5按照 第一列 和第二列 倒叙排列 实现如下的结果3::62::102::41::5demoGitHub 位置 的 SecondarySortKey.java 和SecondarySort.javaSpark中sortByKey实现算子对数据的Key排序。二次排序需要自定义ke...原创 2019-01-05 15:22:27 · 485 阅读 · 0 评论 -
BigData_A_B_01Spark-sql
楔子SparkSQL读取json不再此处描述,因为读取之后可以直接按照使用sql。此处只要是读取文本文件和开窗函数SparkSessionspark2 版本中获取SparkSessionstatic SparkSession sparkSession;/** * 数据文件位置 */static String base_path;static { SparkConf conf...原创 2019-01-01 00:45:08 · 133 阅读 · 0 评论 -
BigData_A_B_01SparkStreaming Wordcount
楔子SparkStreaming Wordcount 例子demo使用Linux的 nc -lk 9999发送数据import java.util.Arrays;import org.apache.spark.SparkConf;import org.apache.spark.SparkContext;import org.apache.spark.api.java.JavaP...原创 2019-01-01 11:23:52 · 131 阅读 · 0 评论 -
Spark 时间函数date_format
楔子读取json文件,但是时间2016-10-01 15:42:46 需要进行操作。使用spark SQL提供的时间函数官网参考demoprivate static void top(SparkSession sparkSession, Dataset<Row> logDS, Dataset<Row> userDataset) { String startTi...原创 2019-01-05 19:23:07 · 11439 阅读 · 0 评论 -
Spark RDD实现电影流行度分析
楔子学习《spark大数据商业实战》第12章节,统计所有电影平均得分最高的前10部电影数据说明数据下载 CSDN位置或者在此处下载详细github代码1:用户文件users.dat---------------------------------------UserID::Gender::Age::OccupationID::Zip-code用户id 性别M是男性 年龄 ...原创 2019-01-02 23:07:45 · 745 阅读 · 0 评论 -
Spark maven运行出错
楔子spark 运行提示io.netty.buffer.PooledByteBufAllocator.metric()查找提示netty 版本 冲突pom解决冲突&amp;lt;dependencyManagement&amp;gt; &amp;lt;dependencies&amp;gt; &amp;lt;dependency&amp;gt; &a原创 2019-02-09 18:19:07 · 537 阅读 · 0 评论 -
BigData_A_A_03-YARN-资源管理和任务调度(2)共同好友(spark)
楔子最近看了hadoop求共同好友,也了解一些spark基本编程,感觉 思路 一致,可以试试sparkdemo是否是直接好友,因为存在这种情况,他俩是直接好友,但是他俩同时也是别人的间接好友,这种情况排除,因此两次flatMap,第二次就是为了排除第一次 中包含的他俩是直接好友的情况,但是这种存在一个问题,排除使用的是集合的操作,如果数据量大,可能有问题。import java.uti...原创 2018-12-24 20:54:55 · 208 阅读 · 0 评论 -
Spark RDD分析各种类型的最喜爱电影TopN技巧
楔子学习《spark大数据商业实战》第12章节通过RDD分析大数据电影点评系统各种类型的电影最喜爱电影TopN。本次分析最受男性(女性)喜爱的电影Top10里面复用了Spark RDD实现电影流行度分析思路因为要使用电影数据RDD,所以复用了Spark RDD实现电影流行度分析根据性别过滤数据要进行join 需要key-valuesjoin之后的数据(2828,((3793,...原创 2019-01-03 21:27:07 · 2424 阅读 · 0 评论 -
Spark版本WordCount Java8lamdba
楔子上次使用Spark 统计单词,使用的是Java7之前的,写了很多,这次使用Java8 lamdbapackage cn.zhuzi.spark;import java.io.File;import java.io.IOException;import java.util.Arrays;import org.apache.commons.io.FileUtils;impor...原创 2018-11-15 20:43:40 · 240 阅读 · 0 评论 -
Spark快速大数据分析(一)
楔子Spark快速大数据分析 前3章内容,仅作为学习,有断章取义的嫌疑。如有问题参考原书Spark快速大数据分析以下为了打字方便,可能不是在注意大小写1 Spark数据分析导论1.1 Spark是什么Spark是一个用来实现快速而通用的集群计算的平台。在速度方面,Spark扩展了广泛使用的MapReduce计算模型,而且高效地支持更多计算模式,包括交互式查询和流处理。在处...原创 2018-11-16 09:56:30 · 14970 阅读 · 0 评论 -
Spark版本WordCount Java8lamdba(2)
楔子spark统计单词/** * 单词统计 * * @throws IOException */public static void wc() throws IOException { JavaSparkContext sc = SparkUtils.getContext(); JavaRDD<String> inputRDD = sc.parallelize(...原创 2018-11-16 14:58:30 · 164 阅读 · 0 评论 -
Spark快速大数据分析(二)
楔子Spark快速大数据分析 前3章内容,仅作为学习,有断章取义的嫌疑。如有问题参考原书4 键值对操作4.1 动机Spark为包含键值对类型的RDD提供了一些专业的操作,这些RDD被称为pair RDD,Pair RDD是很多程序的构成要素,因为他们提供了并行操作各个键或跨节点重新进行数据分组的操作接口。例如:pair RDD提供了reduceByKey方法,可以分别归约每个键对应的数...原创 2018-11-16 23:18:41 · 505 阅读 · 0 评论 -
Spark版本WordCount 和日志热搜词排序
楔子Spark 版本 word count按照 词的个数倒序排序,再次基础上衍生出来日志热门搜索排序。wordcount 按照词个数排序如果不清楚,每一步输出看看输出效果也就差不多了,注意,排序好后,之后就不要继续排序了。/** * 模拟wordcount 按照 词数量倒序排列 */public static void sortBysearch() { JavaRDD&amp;amp;...原创 2018-11-21 22:30:17 · 482 阅读 · 1 评论 -
SparkSQL java例子
楔子SparkSQL 例子数据txtMichael, 29Andy, 30Justin, 19json{"name":"Michael"}{"name":"Andy", "age":30}{"name":"Justin", "age":19}demo//静态导入import static org.apache.s原创 2018-11-22 22:13:17 · 4224 阅读 · 0 评论 -
Spark SQL
楔子SparkSQL ,基于Spark 2.版本Spark 相关内容以下内容是从相关书籍中,阅读Spark部分笔记企业大数据处理Spark、Druid、Flume、Kafka应用实践2 Spark详解Spark是开源的分布式大规模数据处理通用引擎,具有高吞吐、低延迟、通用易扩展、高容错等特点。Spark内部提供了丰富的开发库,集成了数据分析引擎Spark SQL、图计算框架Gr...原创 2018-11-18 00:59:04 · 774 阅读 · 0 评论 -
Spark版本WordCount 和日志热搜词排序(SparkSQL)
楔子继上次 https://blog.csdn.net/u012848709/article/details/84331394 ,使用SparkSQL来实现,使用100M文件200M文件测试,如下100M和200M文件测试时间如下spark.sql.shuffle.partitions的设置 对保存到文件的影响demopublic class SouGou { stati...原创 2018-11-24 20:02:53 · 339 阅读 · 0 评论 -
Spark Streaming一个简单例子
楔子《Spark快速大数据分析》学习10 Spark Streaming 许多应用需要即时处理收到的数据,例如用来实时追踪页面访问统计的应用、训练机器学习模型的应用,还有自动检测异常的应用。Spark Streaming是Spark为这些应用而设计的模型。它允许用户使用一套和批处理非常接近的API来编写流式计算应用,这样就可以大量重用批处理的技术甚至代码。 和Spark的基于RDD...原创 2018-11-23 14:44:27 · 1792 阅读 · 0 评论 -
SparkSQL 销售数据
楔子来源于 hive演示实验–销售数据。现在使用SparkSQL读取文件计算数据数据位置https://github.com/qianlicao51/hddemoimport java.io.IOException;import java.math.BigDecimal;import java.util.ArrayList;import java.util.List;...原创 2018-11-25 11:02:55 · 321 阅读 · 0 评论 -
Spark优化
楔子《A5_企业大数据处理:Spark、Druid、Flume与Kafka应用实践》spark优化Spark优化 Spark的计算任务都在内存中进行,数据集在集群中不断被交换传输和计算,影响计算性能的主要瓶颈是CPU,内存,网络等,在硬件资源有限的情况下,使用各种优化手段能加强Spark计算任务性能,有效提高资源利用率。1 数据优化数据序列化序列化是将数据机构或者对象转换成...原创 2018-12-04 10:42:02 · 139 阅读 · 0 评论 -
读取文件转为带有Schema的DataFrame
楔子spark读取文件转为DataSet/** * 读取文件,转为Dataset * * @param sparkSession * @param filePath * 文件路劲 * @param schemaString * 字段分隔符是逗号 * @param fileSplit * 文件字段分隔符 ...原创 2018-11-27 00:44:37 · 429 阅读 · 0 评论 -
Spark(Java)统计共同好友
楔子最近了解Spark,感觉挺有意思,有一点遗憾是应用的例子书上介绍的比较少,看到了一个Spark统计好友的。《数据算法 Hadoop Spark大数据处理技巧》概述数据如下,{personId,好友1,好友2,好友,3……}100,200 300 400 500 600200,100 300 400300,100 200 400 500400,100 200 30050...原创 2018-11-28 08:33:37 · 749 阅读 · 4 评论 -
Spark(java)二次排序
#楔子学习《数据算法 Hadoop Spark大数据处理技巧》中Spark部分1 二次排序:简介 二次排序(secondary sort) 问题是指归约阶段与某个键关联的值排序。有时这也称为值键转换(value-key conversion)。利用二次排序技术,可以传入各个归约器的值完成排序。二次排序问题解决方案 归约器值排序至少有2种方案。这些使用hadoop和Spark...原创 2018-11-28 15:49:28 · 844 阅读 · 0 评论 -
Spark快速大数据分析——机器学习
楔子《Spark快速大数据分析》学习11 基于MLlib的机器学习 MLlib是Saprk中提供机器学习函数的库。它是专门在集群上并行的情况而设计的。MLlib中包含许多机器学习算法,可以在Spark支持的所有编程语言中使用。11.1 概述 MLlib的设计里面非常简单:把数据已RDD的形式表示,然后在分布式数据集上调用各种算法。MLlib引入了一些数据类型(例如点和向量),不过...原创 2018-12-05 19:31:05 · 475 阅读 · 0 评论 -
Spark机器学习(java):ALS交替最小二乘算法
楔子Spark机器学习,推荐电影,采用ALS交替最小二乘算法Spark中ml和mllib的区别Spark机器学习(10):ALS交替最小二乘算法demoimport java.io.Serializable;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.ml.evaluation.Regress...原创 2018-12-05 21:20:35 · 955 阅读 · 0 评论 -
row_number 简单应用——得到连续夺冠的队伍和起止年份
楔子看到一个贴吧里面有个SQL,求连续得到冠军的 球队和年份http://tieba.baidu.com/p/1550921098要求写一句SQL得到连续夺冠的队伍和起止年份数据team,y活塞,1990公牛,1991公牛,1992公牛,1993火箭,1994火箭,1995公牛,1996公牛,1997公牛,1998马刺,1999湖人,2000湖人,20...原创 2019-02-11 00:37:54 · 790 阅读 · 0 评论