Spark
火柴头9527
这个作者很懒,什么都没留下…
展开
-
比较DataFrame两列相等与不相等
import sparkSession.implicits._val innerDataFrame = 某个DataFrameval summuryAmountDiffDataFrame = innerDataFrame.filter($"summary_amount" =!= $"summary_amount2").filter($"summary_count" === $"summary...原创 2020-03-31 10:39:18 · 7127 阅读 · 0 评论 -
SPARK_HOME/logs/下的xxx.out日志非常大
问题描述:spark-2.1.1-bin-hadoop2.7,CentOS 7,基于Standalone的高可用集群安装,共有5个节点。我的问题是,在每个节点的SPARK_HOME/logs下有几个日志文件非常大,而且不能按大小或日期滚动:spark-admin-org.apache.spark.deploy.worker.Worker-1-HOST_NAME.out、spark-admin...原创 2020-01-20 17:39:19 · 376 阅读 · 0 评论 -
把Spark里WordCount(词频统计)说得最清楚的一次
创建测试数据。创建一个名为“words6.3.3.txt”的新文件,并将其上传到HDFS根路径下。文件内容如下(中间所有分隔符均为“\t”):goodbye Alice googbye Bob goodbye Thomasgoodbye Alice googbye Bob goodbye Thomasgoodbye Alice googbye Bob goodbye Thomas通过S...原创 2020-01-19 14:22:12 · 835 阅读 · 0 评论 -
对比通过REST API和命令行spark-submit分别提交任务
通过REST API提交任务我的项目有一个需求:向Spark集群提交任务后,需轮询查询该任务的执行结果,一旦执行结束,就继续后续处理,后续处理和Spark就不相干了。第一个想到的就是,使用Spark REST API提交任务,尽管Spark官方已经不提倡这种做法了。向http://10.240.8.97:6066/v1/submissions/create做POST请求,参数如下:{ "a...原创 2020-01-08 17:33:52 · 1219 阅读 · 0 评论 -
我的Spark学习笔记(八)
在生产环境中,必须为Spark UI配置认证信息,不允许匿名访问。编写Filter类<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-inst...原创 2019-12-19 17:28:42 · 150 阅读 · 0 评论 -
我的Spark学习笔记(七)
假设此刻,已完成基于YARN的高可用Spark集群配置。运行Hello World:计算PI的值用YARN-Client方式提交spark-submit \--class org.apache.spark.examples.SparkPi \--master yarn \--deploy-mode client \--executor-memory 1G \--total-exec...原创 2019-12-19 17:26:53 · 79 阅读 · 0 评论 -
我的Spark学习笔记(五)
观察http://localhost:4040/storage/启动spark-shell后,准备数据文件D:/Dump/SparkDB/people.txtMichael, 29Andy, 30Justin, 19scala> val file = sc.textFile("D:/Dump/SparkDB/people.txt")file: org.apache.spark....原创 2019-12-19 17:25:51 · 125 阅读 · 0 评论 -
我的Spark学习笔记(四)
体会一下:mapToPair()、countByKey()、reduceByKey()。import org.apache.spark.Partitioner;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.Java...原创 2019-12-19 17:23:54 · 113 阅读 · 0 评论 -
我的Spark学习笔记(三)—— SparkSQL初体验
对SparkSQL先有一个感性认识。win10下使用了Cmder工具,操作如下:$ pwdD:\Temp\SparkSQLTest$ dir2019/12/03 16:11 <DIR> .2019/12/03 16:11 <DIR> ..2019/01/25 20:45 789,885 ...原创 2019-12-19 17:23:00 · 282 阅读 · 0 评论 -
我的Spark学习笔记(六)
启动Master:# pwd/usr/local/src/spark-2.2.0-bin-hadoop2.7/sbin# start-master.sh下面的jar包就是我们前面提到的。我没有换行,一旦换行了,在Linux环境下,很难输入。# curl -X POST http://127.0.0.1:6066/v1/submissions/create --header "Conte...原创 2019-12-19 17:18:28 · 301 阅读 · 0 评论 -
我的Spark学习笔记(二)
这篇和这篇是介绍Spark入门的姊妹篇,有源码。先翻译下文中提到的问题域:下载源码后,不管三七二十一,运行D:\Dump\SparkDB\hadoop-framework-examples\spark\src\test\java\com\matthewrathbone\sparktest\SparkJavaJoinsTest.java,可以成功执行。再看看核心处理逻辑,D:\Dump\Spark...原创 2019-11-29 15:59:44 · 120 阅读 · 0 评论 -
我的Spark学习笔记(一)
我在win10环境下,参考这篇博客,搭建Spark开发环境,记录如下。安装配置JDK后,验证如下:C:\Users\jinjiankang>java -versionjava version "1.8.0_152"Java(TM) SE Runtime Environment (build 1.8.0_152-b16)Java HotSpot(TM) 64-Bit Server V...原创 2019-11-29 14:04:07 · 186 阅读 · 0 评论