1,下载安装JDK,并配置环境变量,在shell里面验证是否安装成功
2,下载安装scala,并配置环境变量,验证是否安装成功(好像只有2.10.x版本能用)
3,下载安装idea,
4,下载对应idea版本的scala插件,可以在file----》plugins 里搜索对应的版本,然后自己下载,再添加上去,否则在idea里下载太慢
5,新建scala项目,点击 File -> Project Structure,在 “Dependencies” 标签界面下,点击右边绿色的 “+”号,选择第一个选项“JARs or directories...”,选择相应的jar包,点“OK”,jar包添加成功。--------添加spark-assembly-1.6.1-hadoop2.6.0.jar,在spark安装包的lib文件夹下
6,
val conf = new SparkConf().setMaster("local").setAppName("wordcount") val sc = new SparkContext(conf)
创建spark的配置环境
7,编写spark程序
遇到问题:
1,sc.textFile()读取文件,打印输出的时候,中文乱码
解决transfer(sc,"C:\\Users\\lenovo\\Desktop\\patent.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_) .foreach(x => println(x)) def transfer(sc:SparkContext,path:String):RDD[String]={ sc.hadoopFile(path,classOf[TextInputFormat],classOf[LongWritable],classOf[Text],1) .map(p => new String(p._2.getBytes, 0, p._2.getLength, "GBK"))