spark深入学习
菜鸟也有梦想啊
这个作者很懒,什么都没留下…
展开
-
Virtual Box 安装centOS6.5
需要:win7电脑一台,Virtual Box 4.1,CentOS 6.5,SecureCRT,WinSCP安装包会打包在一起在文末附上地址CentOS6.5安装1使用提供的CentOS 6.5镜像即可,CentOS-6.5-i386-minimal.iso。2、创建虚拟机:打开Virtual Box,点击“新建”按钮,点击“下一步”,输入虚拟机名称为spark1,选择操作系统为...原创 2019-05-04 19:47:40 · 774 阅读 · 1 评论 -
查询学生成绩在80之上的学生信息
Java:package cn.spark.sql;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.java.JavaSparkCon...原创 2019-05-21 20:32:40 · 2865 阅读 · 0 评论 -
使用idea开发Scala的Wordcount程序并提交到spark集群中
开发准备,idea,配置了Scala的win10电脑,因为集群中的spark是1.6版本,所以需要Scala的版本为Scala2.10.5接下来,将spark的包在win10解压,将lib目录下的复制一份到一个不含中文的目录中,jar包会有两个,我们需要的是大的那个。打开idea新建工程,按图选择选择Scala版本,选择2.10.5的,因为之前安装过2.11的,需要选择到2...原创 2019-05-11 16:05:16 · 881 阅读 · 0 评论 -
spark宽依赖以及窄依赖
spark宽依赖以及窄依赖翻译 2019-05-15 22:35:31 · 134 阅读 · 0 评论 -
spark取一个班级的排名topN
java:package cn.spark.sparktest;import java.util.Arrays;import java.util.Iterator;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.ap...原创 2019-05-15 20:31:03 · 637 阅读 · 0 评论 -
spark取一串字的topN
Java:package cn.spark.sparktest;import org.apache.spark.SparkConf;import org.apache.spark.SparkContext;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaRDD;i...原创 2019-05-15 17:39:06 · 454 阅读 · 0 评论 -
自定义实现二次排序
Java:package cn.spark.sparktest;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.java.JavaS...原创 2019-05-15 16:50:23 · 377 阅读 · 0 评论 -
使用idea开发Java的Wordcount程序并提交到spark集群运行
首先,我们需要确保集群已搭建好,win10安装idea,打开idea,选择创建maven项目然后next,finish。工程打开后再pom.xml中添加依赖,选择启动导入依赖<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" ...原创 2019-05-11 15:39:06 · 3608 阅读 · 0 评论 -
基于排序机制的Wordcount程序
Java版:package cn.spark.sparktest;import org.apache.spark.SparkConf;import org.apache.spark.SparkContext;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaRDD;...原创 2019-05-15 09:27:23 · 545 阅读 · 0 评论 -
Spark算子实战action(Scala)
1、reduce算子package cn.spark.study.coreimport org.apache.spark.{SparkConf, SparkContext}object actionOpertion { def main(args: Array[String]): Unit = { reduce() } def reduce(): Unit ...原创 2019-05-14 19:46:00 · 326 阅读 · 0 评论 -
Spark算子实战action(Java)
1、reduce算子操作package cn.spark.sparktest;import org.apache.spark.SparkConf;import org.apache.spark.SparkContext;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.java.JavaSpa...原创 2019-05-14 19:45:46 · 614 阅读 · 0 评论 -
Spark算子实战transforma(Scala)
map算子:将集合中的每个元素乘2package cn.spark.study.coreimport org.apache.spark.{SparkConf, SparkContext}object transformationOpertion { def main(args: Array[String]): Unit = { map() } def map()...原创 2019-05-13 22:56:06 · 867 阅读 · 0 评论 -
Spark算子实战transforma(Java)
map算子:将集合中的每个元素乘2package cn.spark.sparktest;import java.util.Arrays;import java.util.List;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark...原创 2019-05-13 22:53:12 · 1372 阅读 · 0 评论 -
CentOS6.5安装spark
安装spark包1、将spark-1.3.0-bin-hadoop2.4.tgz使用WinSCP上传到/usr/local目录下。2、解压缩spark包:tar zxvf spark-1.3.0-bin-hadoop2.4.tgz。3、更改spark目录名:mv spark-1.3.0-bin-hadoop2.4 spark4、设置spark环境变量vi ~/.bashrc...原创 2019-05-05 22:23:25 · 682 阅读 · 0 评论 -
CentOS6.5安装Scala和kafka
安装Scala2.11.41、将scala-2.11.4.tgz使用WinSCP拷贝到spark1的/usr/local目录下。2、对scala-2.11.4.tgz进行解压缩:tar -zxvf scala-2.11.4.tgz。3、对scala目录进行重命名:mv scala-2.11.4 scala4、配置scala相关的环境变量vi ~/.bashrcexport...原创 2019-05-05 21:57:39 · 340 阅读 · 0 评论 -
CentOS6.5安装zookeeper
安装zookeeper包1、将zookeeper-3.4.5.tar.gz使用WinSCP拷贝到spark1的/usr/local目录下。2、对zookeeper-3.4.5.tar.gz进行解压缩:tar -zxvf zookeeper-3.4.5.tar.gz。3、对zookeeper目录进行重命名:mv zookeeper-3.4.5 zk。4、配置zookeeper相关的环...原创 2019-05-05 21:32:22 · 820 阅读 · 0 评论 -
CentOS6.5安装hive
安装hive包1、将apache-hive-0.13.1-bin.tar.gz使用WinSCP上传到spark1的/usr/local目录下。2、解压缩hive安装包:tar -zxvf apache-hive-0.13.1-bin.tar.gz。3、重命名hive目录:mv apache-hive-0.13.1-bin hive4、配置hive相关的环境变量vi ~/.ba...原创 2019-05-05 21:09:18 · 545 阅读 · 1 评论 -
CentOS6.5中安装Hadoop
安装Hadoop包1、使用课程提供的hadoop-2.4.1.tar.gz,使用WinSCP上传到CentOS的/usr/local目录下。2、将hadoop包进行解压缩:tar -zxvf hadoop-2.4.1.tar.gz3、对hadoop目录进行重命名:mv hadoop-2.4.1 hadoop4、配置hadoop相关环境变量vi ~/.bashrcexpor...原创 2019-05-05 20:38:44 · 737 阅读 · 2 评论 -
使用反射的方式将RDD转换为DataFrame
Java:package cn.spark.sql;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.java.JavaSparkContext;import org.apache.spark.api.java.functio...原创 2019-05-18 11:06:35 · 390 阅读 · 0 评论