spark搞大数据--填坑笔记（一）

最新推荐文章于 2023-07-17 11:56:18 发布

王负剑！王负剑！

最新推荐文章于 2023-07-17 11:56:18 发布

阅读量1k

点赞数

分类专栏： spark 搜狗实验室大数据分布式日志处理文章标签： spark 搜狗实验室大数据分布式日志处理

本文链接：https://blog.csdn.net/infent/article/details/82882720

版权

前言：准备利用这段时间好好搞搞大数据这套东西，从很早之前就听闻Google三宝的传说，但是时至今日才得以接触到它们衍生出来各种技术。虽然时常被不知道何处的问题搞的筋疲力竭，可是一旦调通了，真是太有意思了。技术平平，翻阅各种大神的博客，填坑无数，从而写下此笔记。

一.配置与工具

系统版本：ubuntu 18.04LTS

编译器工具：idea 2018.2.1社区版

使用idea自带maven进行调试

二.实验目标

第一搭建好scala编译环境

第二编写Wordcount脚本，并调试

第三打jar包，提交到spark运行

三.配置maven环境

①建立自己的maven项目

可以看到这是一个崭新的maven项目，现在并不支持scala调试，我们下一步将修改pom.xml以使其满足项目需求

②修改pom文件

<properties>
    <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
    <spark.version>2.2.0</spark.version>
    <scala.version>2.11</scala.version>
    <hadoop.version>2.7.3</hadoop.version>
</properties>

设定好使用的三组件版本，这个版本号真的是坑的一比，在网上抄了各种配置，每种飘红的地方都不一样，所以在这里记录下来能够应付本项目的这些pom写法，报错的地方在下面记录下来，以备后患。

不过在此之前，我们先改动一下maven库源位置到aliyun，这样下载更新会快很多。

Settins->Maven User setting file 选成我们自己的配置文件，这个文件放到用户根目录下的.m2文件夹下即可

-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

<?xml version="1.0" encoding="UTF-8"?>
<settings>
<localRepository>/home/zs/.m2/repository</localRepository>
    <mirrors>
        <mirror>
            <id>alimaven</id>
            <name>aliyun maven</name>
            <url>http://maven.aliyun.com/nexus/content/groups/public/</url>
            <mirrorOf>central</mirrorOf>
        </mirror>
    </mirrors>
<profiles>
    <profile>
       <id>nexus</id>
        <repositories>
            <repository>

最低0.47元/天解锁文章

王负剑！王负剑！

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark搞大数据--填坑笔记（一）

前言：准备利用这段时间好好搞搞大数据这套东西，从很早之前就听闻Google三宝的传说，但是时至今日才得以接触到它们衍生出来各种技术。虽然时常被不知道何处的问题搞的筋疲力竭，可是一旦调通了，真是太有意思了。技术平平，翻阅各种大神的博客，填坑无数，从而写下此笔记。一.配置与工具系统版本：ubuntu 18.04LTS编译器工具：idea 2018.2.1社区版使用idea自带maven...
复制链接

扫一扫