Spark 大数据中文分词统计 (一) 开发环境搭建

6 篇文章 0 订阅
4 篇文章 0 订阅

          几年前搞BI项目时就听说过大数据技术,当时也买了书,可惜没有认真去学。几年5月份

开始,报名参加王家林老师的大数据蘑菇云行动,才算真正开始学习Spark,学习大数据技术。

          网上很多Spark的例子都是经典的WordCount example,可惜都是拿那个英文的readme

文件,分行分词统计,对于中文其实并不适用。所以便想着写一个能处理中文的WordCount,

对一些国学经典如唐诗三百首,宋词三百首等等,统计分析下,也算学以致用。经过半月努力,

总算基本实现了功能:

       

          在此总结下,希望能和学习大数据或Spark的各位同学分享。

          第一步当然是安装JDK 1.6以上版本,并设定JAVA_HOME环境变量。

因为Scala语言和Java语言都是基于JVM同根所生,而且Spark可以使用Java语言或Scala语言

开发,所以安装JDK是必须的。如下是我本地的安装及设定:

          第二步安装Scala语言包及设定SCALA_HOME环境变量:

          去Scala官网:http://www.scala-lang.org/ 下载安装相应的Scala语言版本。以下是我本地的安装及设定:

          第三步下载安装Apache Spark的安装包并设定相应的环境变量:

          下载地址:http://spark.apache.org/downloads.html 选择相应的Spark和hadoop版本,并要注意和Scala版本的对应关系。

下载后解压安装,并设定环境变量。我本地的设定如下:

         启动Spark Shell,会显示Spark的版本是1.6.0.

         第四步,下载安装hadoop的安装编译包,需要注意32位和64位的差别已经hadoop的版本。

         https://github.com/sdravida/hadoop2.6_Win_x64/tree/master/bin  这是hadoop 2.6版本 64位 windows

的安装包,其他版本请上网搜下。我本地的设定如下:


          Spark的开发环境,可以有以下三种选择:

          1. Scala-IDE 网址为 http://scala-ide.org/  这是基于Scala官方基于Eclipse预装了Scala语

言各种组件的开发环境,下载后解压就可以直接使用来开发Scala项目,加入Spark的Library,

就可以开发Spark应用了。

           Scala IDE打开后的界面如下:

            可以选择Scala项目,加入Scala class或trait进行Scala语言的开发。

            当然Scala IDE还是可以开发Java应用的,因为本来Scala和Java就是基于JVM同根所生,并且可以相互调用的。

            开发Java应用,选择New 弹出菜单最下面的Other:

           

           这里,就可以选择建立其他类型的Java项目了。

           2. 第二种开发环境的选择是Intellij IEDA 网址是 https://www.jetbrains.com/idea/

           我们下载community 免费版就可以了。

           据说Intellij IDEA是开发Java语言以及Scala语言最好的IDE,界面相当professional and cool:

           下拉Configure,选择Pugins:

           可以给Intellij IDEA安装各种开发插件,也包括Scala语言开发的插件:

           因为我已经安装过Scala语言包了,所以这里显示Uninstall,否则应该显示安装链接,直接点击就可以在线安装。安装完毕后,关闭窗口返回。

           然后选择Create New Project:

         可以看到,有Java Project,Scala Project甚至于Android 等等其他类型Project可供选择。

         当然,要能创建其他类型 Project,必须先安装其必须的插件。

        3. 第三种开发环境的选择是Eclipse + Scala插件,

        自己下载Eclipse,解压打开后,在Help菜单中选择Install New Software,安装对应Eclipse版本的Scala开发插件:

        安装完毕后,重新进入Eclipse,就可以选择创建Scala Project,进行Scala语言的开发了:

       这里有一点要注意,就是必须用新的从Eclipse官网下载到的Eclipse版本,才能连接到Scala 官网去安装Scala插件。

如果使用其他的定制过的Eclipse,例如Android Studio的Eclipse,是无法安装Scala插件的。

       以上三种开发IDE的选择,第一种最为简单,所以我选择了第一种。

       到这里,Windows 7下的Spark开发环境的搭建,就算完成了。

       下一篇,我会先用Java开发Spark中文分词统计程序。


        


         


  • 5
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

dumbbellyang

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值