scala
sysmedia
这个作者很懒,什么都没留下…
展开
-
基于IntelliJ IDEA开发Spark的Maven项目——Scala语言
基于IntelliJ IDEA开发Spark的Maven项目——Scala语言 1、Maven管理项目在JavaEE普遍使用,开发Spark项目也不例外,而Scala语言开发Spark项目的首选。因此需要构建Maven-Scala项目来开发Spark项目,本文采用的工具是IntelliJ IDEA 2016,IDEA工具越来越被大家认可,开发Java, Python ,sc转载 2017-05-05 17:44:44 · 3292 阅读 · 0 评论 -
Spark Idea Maven 开发环境搭建
Spark Idea Maven 开发环境搭建 一、安装jdk jdk版本最好是1.7以上,设置好环境变量,安装过程,略。 二、安装Maven 我选择的Maven版本是3.3.3,安装过程,略。 编辑Maven安装目录conf/settings.xml文件, ? 1 2 D:\maven-repository\reposit转载 2017-05-05 17:50:56 · 993 阅读 · 0 评论 -
spark数据分析之ip归属地查询
前一段时间,在项目中,领导要求实时查看来自各个省份的ip访问的详情,根据这一需求,通过flume/logstack实时采集nginx的日志到生产到kafka,再通过Spark实时消费分析保存到Redis/MySQL中,最后前端通过百度的echart图实时的显示出来。 首先,得有一份ip归属地的规则表,可以本地的文档,也可以是分布式的在多台机器上的(如hdfs)。 ip规则表部分如下: 1转载 2017-05-07 10:11:20 · 2349 阅读 · 4 评论 -
spark saveAsTextFile
当我运行完一个Spark程序想把结果保存为saveAsTextFile, 结果使用Hadoop fs -ls la /qy/151231.txt后发现里面有一系列的part,好几千个。 原因: 运行Spark的时候把数据分成了很多份(partition),每个partition都把自己的数据保存在partxxx文件夹。 如果想保存为一份的话,就要: 先collect 或转载 2017-05-08 10:45:11 · 1824 阅读 · 1 评论