基于eclipse开发spark2.0的dataFrame

前些天准备研究下spark2.0的spark-sql.

我主要的工具是eclipse

版本是hadoop2.7+spark2.0

废话少说,直接上代码wordcount

import org.apache.spark.sql.SparkSession
import org.apache.spark._

import org.apache.spark.SparkContext._
import scala.io.Source


/**
  * Created by Administrator on 2016/7/29 0029.
  */
object wordcount2{
def main(args: Array[String]) {

  
   val sparksession=SparkSession.builder()
   .master("local")
   .getOrCreate()
   import sparksession.implicits._
   
  //val ds=sparksession.read.textFile("hdfs://192.168.153.11:9000/user/spark/a.txt").as[String]
  // val ds=sparksession.read.text("file:/D:/a.txt").as[String]
   //var ds = sparksession.read.format("text").load("file:/D:/a.txt").as[String];
  // val ds=sparksession.sparkContext.textFile(args(0)).toDS()
  // val result=ds.flatMap(_.split(" ")).filter(_.length>0).groupBy().count()
    val warehouseLocation ="file:/"  // "hdfs://192.168.21.8:9000/"  //"file:/"
    val sparkSession1 =  SparkSession.builder().master("local").appName("tst").config("spark.sql.warehouse.dir",warehouseLocation).getOrCreate()
  var ds = sparksession.read.format("text").load("file:/D:/a.txt").as[String];
    val counts = ds.flatMap(line => line.split(" "))
   val words = counts.groupByKey(_.toLowerCase())
   val  datas = words.count()
    datas.show()
    //result.show()
    
 //主要注意点是   var ds = sparksession.read.format("text").load("file:/D:/a.txt").as[String];
     //这里load的路径要注意

}


}

 

转载于:https://my.oschina.net/u/2507413/blog/743800

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值