java实现spark-worldcount例子

1.使用idea新建java maven项目,在pom.xml添加spark依赖,并在打包时指定主函数入口,这样就可以不用在提交spark任务时指定入口方法

 <dependencies>
        <!-- https://mvnrepository.com/artifact/org.apache.spark/spark-core -->
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-core_2.11</artifactId>
            <version>2.3.0</version>
        </dependency>
        <!-- https://mvnrepository.com/artifact/mysql/mysql-connector-java -->
    </dependencies>
    <build>
        <plugins>
            <plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-compiler-plugin</artifactId>
                <version>3.2</version>
                <configuration>
                    <source>1.8</source>
                    <target>1.8</target>
                </configuration>
            </plugin>
            <!-- 打包jar文件时,配置manifest文件,加入lib包的jar依赖 -->
            <plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-jar-plugin</artifactId>
                <configuration>
                    <classesDirectory>target/classes/</classesDirectory>
                    <archive>
                        <manifest>
                            <!-- 主函数的入口 -->
                            <mainClass>worldcount</mainClass>
                            <!-- 打包时 MANIFEST.MF文件不记录的时间戳版本 -->
                            <useUniqueVersions>false</useUniqueVersions>
                            <addClasspath>true</addClasspath>
                            <classpathPrefix>lib/</classpathPrefix>
                        </manifest>
                        <manifestEntries>
                            <Class-Path>.</Class-Path>
                        </manifestEntries>
                    </archive>
                </configuration>
            </plugin>
        </plugins>
    </build>

2.java代码

**
 * Author: hezishan
 * Date: 2018/5/23.
 * Description:
 **/
public class worldcount {

    public static void main(String[] args) {
        SparkConf conf = new SparkConf().setAppName("searchword").setMaster("local");
        JavaSparkContext sc = new JavaSparkContext(conf);

        List<String> yesterdayList = new ArrayList<>();
        yesterdayList.add("油田天");
        yesterdayList.add("卡车司机");
        yesterdayList.add("房山区");
        yesterdayList.add("左良玉");


        JavaRDD<String> yesterdayData = sc.parallelize(yesterdayList);
        JavaPairRDD<String, Integer> yesterdayFreq = yesterdayData.mapToPair(word -> new Tuple2<String, Integer>(word, 1))
                .reduceByKey((a, b) -> a + b);
        System.out.println(yesterdayFreq.collect());
        System.out.println("llllllllllllllllllllllllllllllll");

    }

}
在这里使用下面两行创建sparkContext, setAppName设置spark任务名,setMaster设置spark运行模式,在java中必须设置否则会报错,这里使用 local是本地模式,具体可参考博客:https://blog.csdn.net/gamer_gyt/article/details/51833681
SparkConf conf = new SparkConf().setAppName("searchword").setMaster("local");
        JavaSparkContext sc = new JavaSparkContext(conf);

JavaRDD<String> yesterdayData = sc.parallelize(yesterdayList); 使用parallelize从集合中获取数据,转成有string组合形成的rdd

JavaPairRDD<String, Integer> yesterdayFreq = yesterdayData.mapToPair(word -> new Tuple2<String, Integer>(word, 1))
                .reduceByKey((a, b) -> a + b);

首先->表达式时java 8的lamb特性,mapToPair主要时将一个string转变成(string,1)map对,例如:A->(A,1)

reduceBykey是根据key进行reduce操作,实际就是对 value的操作,这里(a,b)->a+b =将相同key的value相加

如若对java 8 lamb特性不熟悉,也可以使用全函数,建议先查用全函数再调整为lamb更为容易理解。

3.这里使用amberi搭建了大数据平台,并配置hue界面管理,在hue上提交spark任务

使用maven进行打包 jar(在打包之前把运行模式修改为 yarn-client,运行模式因环境而定),然后在hue界面提交jar,运行即可,若在打包时候没有指定入口类,需要在运行spark任务时指定,否则报没有入口类错误


  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值