![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
月落乌啼silence
不积跬步,无以至千里
展开
-
spark读取csv文件
spark读取csv文件,如果用textFile直接读取也可以,但是对于后续的操作不太方便。所以要采用sqlContext来读取csv文件在shell中直接使用sqlContext 时会报错,所以启动时要添加依赖包./spark-shell --packages com.databricks:spark-csv_2.10:1.3.0这样就直接进入了shell,然后加载hdfs上的csv原创 2016-10-10 20:53:08 · 5858 阅读 · 0 评论 -
使用IDE开发Spark应用程序
使用IDE开发Spark应用程序有两种方式,一种是在本地(Local)运行,另一种是在集群中运行。下面分别介绍两种方式:一、使用Scala开发本地测试的Spark应用程序。1、安装IDE集成开发环境(前提是要在Windows中安装了Java和Scala)。2、使用集成开发环境创建工程WordCount,并修改Scala Library Container为2.10.x(工程名Wor原创 2016-08-12 23:23:32 · 898 阅读 · 0 评论 -
使用IDEA编写Spark应用程序
spark应用程序的开发可以在本地,也可以在集群模式下。使用IDEA与使用eclipse开发的步骤基本一致,程序内容完全一样,只是对集成开发环境的操作有所不同。一、安装IDEA集成开发环境1、(https://www.jetbrains.com/idea/)在这个连接下可以下载各种版本的IDEA,可以选择Windows,Linux,Mac三种环境。2、直接安装IDEA即可,安装过程中会原创 2016-08-15 09:13:11 · 1918 阅读 · 0 评论 -
Spark 线性回归
回归是应用于预测输出变量为连续变化的场景,就像广为流传的房价与面积的关系,如果仅仅是一个因变量和一个自变量,那叫一元线性回归,如果是多个自变量一个因变量就叫多元线性回归。以下图为例: 图片来自http://blog.csdn.net/sunbow0/article/details/45539255原创 2017-02-11 10:06:14 · 1771 阅读 · 0 评论 -
Spark 读取多个小文件
写这篇文章前并没有学到多少东西,只是遇到了一些问题,放在这里希望能得到解答。谢谢我想从文件夹下多个文件中读数据,也就是时读取每一个文件中含有“CDR”的行,文件的内容时这样的: 我是想把所有文件中的含有“CDR”这一行读取出来,并一块存入本地文件中。我尝试了集中办法,都不是很让原创 2017-03-16 11:12:27 · 9281 阅读 · 2 评论 -
spark学习 计算平均年龄
使用Java自动生成1000个人的年龄,存储至本地,数据格式如下: 左边一列为序号,右边为人的年龄.使用spark读取文件,并计算所有人的平均年龄:第一种方法:读入数据 --> 获取文件的第二列(年龄) --> 将年龄生成键值对(1 , age) --> 所有年龄相加(相加之后的数据仍然是键值对(1 , totalAge)),取value值 --> 计算结果.代原创 2017-04-06 10:17:58 · 2981 阅读 · 0 评论