Spark
Cheengvho
这个作者很懒,什么都没留下…
展开
-
Spark RDD按行中邮编分类输出包含该邮编的用户姓名(Scala)
原始数据:输出样式: 现在开始进入正题:此次操作均在Linux虚拟机上面进行,用spark-shell启动,不包含前面的SparkContext的设置1、 从HDFS中导入文件var accounts_path = "/loudacre/accounts"var accounts = sc.textFile(accounts_path)2、将数据转化为key-val...原创 2018-07-23 11:00:13 · 230 阅读 · 0 评论 -
Linux环境下编写Spark应用程序对HDFS中的包含jpg请求的日志文件进行计数 (Scala)
目录结构 /home/training/training_materials/dev1/exercises/spark-application/countjpgs/src/main/scala/stubs/CountJPGs.scala编辑这个文件,代码如下:package stubsimport org.apache.spark.SparkContextimport org.ap...原创 2018-07-23 14:00:35 · 277 阅读 · 0 评论 -
Spark对于RDD的相关操作(Scala)
如果在IDEA中创建Maven项目,需要导入相关依赖,现在先不提供pom文件,后面再上传。依赖导入完成之后,创建Scala-object,启用RDD需要固定的前面几行代码(里面的设置不一定固定)val conf=new SparkConf() .setMaster("local") .setAppName("testRdd")val sc=new SparkCo...原创 2018-07-20 18:02:45 · 1609 阅读 · 0 评论 -
使用Spark-Core导入txt文件并格式化输出
目标文件loudacre.txt (文件存于我的Linux训练机上面的 /home/training/Documents/loudacre.txt ) 文件的每行用一个 TAB 分割 代码://导入文件var trainingrecord = sc.textFile("file:///home/training/Documents/TrainingRecord.txt")//使用...原创 2018-08-06 09:35:58 · 1263 阅读 · 0 评论 -
提交Spark程序到YARN集群上面运行
在YARN群集上运行示例wordcount.py程序以计算知识数据集中单词的频率:$ spark-submit --master yarn-client wordcount.py /loudacre/kb/*原创 2018-08-20 10:40:31 · 1372 阅读 · 0 评论 -
SBT打包编译流程
scala文件写好为前提。在项目目录创建一个sbt文件$ vim simple.sbt编写simple.sbt文件,以下为该文件的内容:name := "Simple Project"version := "1.0"scalaVersion := "2.11.8"libraryDependencies += "org.apache.spark" %% "spark-cor...原创 2018-08-23 15:36:29 · 8487 阅读 · 0 评论 -
一个Spark maven项目打包并使用spark-submit运行
项目目录名 countjpgs pom.xml文件(位于项目目录下) countjpgs => src => main => scala => stubs => CountJPGs.scala weblogs文件存放在HDFS的/loudacre目录下,是一个包含各种请求的web日志文件。pom.xml文件内容:<project xmlns="...原创 2018-08-23 17:20:05 · 8277 阅读 · 0 评论 -
Spark分区相关
在Linux启动spark-shell时,可以使用以下命令(两个线程):$ spark-shell --master local[2]使用sc.textFile(“path”)导入文件,然后可以使用以下命令查看分区数:scala> rdd.toDebugString()此时我从HDFS中导入了一个文件:然后查看该 RDD --- accounts的分区数:...原创 2018-08-24 08:58:55 · 175 阅读 · 0 评论 -
Spark-Streaming中使用MySQL的简单方法(Scala)
向MySQL数据库中插入内容:(方法传入参数为一个元组RDD)def insertResult(record: Iterator[(String, String, String, String, String, String, String, String, String, String, Int, Int)]): Unit = { var conn: Connection = n...原创 2018-09-17 11:09:12 · 1932 阅读 · 0 评论