Scala
Cheengvho
这个作者很懒,什么都没留下…
展开
-
使用Spark-Core导入txt文件并格式化输出
目标文件loudacre.txt (文件存于我的Linux训练机上面的 /home/training/Documents/loudacre.txt ) 文件的每行用一个 TAB 分割 代码: //导入文件 var trainingrecord = sc.textFile("file:///home/training/Documents/TrainingRecord.txt") //使用...原创 2018-08-06 09:35:58 · 1263 阅读 · 0 评论 -
一个Spark maven项目打包并使用spark-submit运行
项目目录名 countjpgs pom.xml文件(位于项目目录下) countjpgs => src => main => scala => stubs => CountJPGs.scala weblogs文件存放在HDFS的/loudacre目录下,是一个包含各种请求的web日志文件。 pom.xml文件内容: <project xmlns="...原创 2018-08-23 17:20:05 · 8277 阅读 · 0 评论 -
Spark分区相关
在Linux启动spark-shell时,可以使用以下命令(两个线程): $ spark-shell --master local[2] 使用sc.textFile(“path”)导入文件,然后可以使用以下命令查看分区数: scala> rdd.toDebugString() 此时我从HDFS中导入了一个文件: 然后查看该 RDD --- accounts的分区数: ...原创 2018-08-24 08:58:55 · 175 阅读 · 0 评论 -
Spark-Streaming中使用MySQL的简单方法(Scala)
向MySQL数据库中插入内容:(方法传入参数为一个元组RDD) def insertResult(record: Iterator[(String, String, String, String, String, String, String, String, String, String, Int, Int)]): Unit = { var conn: Connection = n...原创 2018-09-17 11:09:12 · 1932 阅读 · 0 评论