在windows系统用idea开发spark

1,下载安装JDK,并配置环境变量,在shell里面验证是否安装成功

2,下载安装scala,并配置环境变量,验证是否安装成功(好像只有2.10.x版本能用)

3,下载安装idea,

4,下载对应idea版本的scala插件,可以在file----》plugins 里搜索对应的版本,然后自己下载,再添加上去,否则在idea里下载太慢

5,新建scala项目,点击 File ->  Project Structure,在 “Dependencies” 标签界面下,点击右边绿色的 “+”号,选择第一个选项“JARs or directories...”,选择相应的jar包,点“OK”,jar包添加成功。--------添加spark-assembly-1.6.1-hadoop2.6.0.jar,在spark安装包的lib文件夹下

6,

val conf = new SparkConf().setMaster("local").setAppName("wordcount")
val sc = new SparkContext(conf)
 
创建spark的配置环境
7,编写spark程序
 
遇到问题:
1,sc.textFile()读取文件,打印输出的时候,中文乱码
解决
transfer(sc,"C:\\Users\\lenovo\\Desktop\\patent.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_)
    .foreach(x => println(x))


def transfer(sc:SparkContext,path:String):RDD[String]={
  sc.hadoopFile(path,classOf[TextInputFormat],classOf[LongWritable],classOf[Text],1)
    .map(p => new String(p._2.getBytes, 0, p._2.getLength, "GBK"))

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值