建立spark工程有两种方式:java工程、maven工程。
由于maven管理jar包很方便,本篇基于maven构建spark工程。
spark支持四种语言:scala、java、python、R。
其中scala是基于java的语言,必须有JDK支持。
同时也是spark源码语言,官方API文档对scala的支持是最好的。
如果能选择scala语言作为spark程序的开发,是最好的。
java、python是spark中支持比较好的语言,官方文档中有完整的API解释。
R语言是spark1.4版之后才开始支持,官方资源较少,网络资源也少。
由于博主之前用的是java,这里为了快速入手,构建出能运行spark实例,还是用java开发spark程序。
先决条件:
1、已安装好maven。
2、已安装好hadoop。
3、已安装好spark。
maven构建spark工程基本步骤:
1、新建maven工程。
2、新建JavaSparkPi类。
3、添加spark解压包中JavaSparkPi.java代码。
package sparkTest;
/*
* Licensed to the Apache Software Foundation (ASF) under one or more
* contributor license agreements. See the NOTICE file distributed with
* this work for additional information regarding copyright ownership.
* The ASF licenses this file to You under the Apache License, Version 2.0
* (the "License"); you may not use this file except in compliance with
* the License. You may obtain a copy of the License at
*
* http://www.apache.org/licenses/LICENSE-2.0
*
* Unless required by applicable law or agreed to in writ