Spark
spark
说文科技
同名公众号【说文科技】,做有态度的研究。
展开
-
Spark学习笔记之一
Spark学习笔记一.spark自带框架(不依赖其它的框架)的安装方式1.配置单机式的spark集群【即master节点和worker节点在相同的主机上】将spark-env.sh-template文件修改成spark-env.shvi /spark/conf/spark-env.shexport JAVA_HOME= #导入Java_HOMEexport spar...原创 2018-04-08 11:58:56 · 529 阅读 · 0 评论 -
Intellij中使用Spark编写程序
windows中使用Intellij编写Spark程序1.配置准备:Windows + Intellij+maven+scala+hadoop+java,依次解释这些配置:windows的jdk安装以及配置windows中Intellij的安装及配置在Intellij中安装Scala插件,这个操作同样很简单,不再赘述在Intellij中使用Maven构建项目,这个过程稍微复杂,不了...原创 2018-04-05 18:26:58 · 576 阅读 · 0 评论 -
SparkSql基础实战
SparkSql基础实战:1.import org.apache.spark.sql.{DataFrame, DataFrameReader, Dataset, SparkSession}object MyDataFrame{ case class Person(name: String, age: Long) def main(args:Array[String]): Uni...原创 2018-04-19 18:53:16 · 437 阅读 · 0 评论 -
Windows下搭建spark源码阅读环境
1.可能会出现以下错误: spark Spark Project Core ................................. FAILURE 原因有如下两种: 1.安装的版本不兼容。调整成相应的版本信息 2.git,bash命令无法执行。添加系统环境变量...原创 2018-05-03 19:31:46 · 380 阅读 · 0 评论 -
Error connecting to localhost:9999 java.net.ConnectException: Connection refused
1.运行SparkStreaming的NetworkWordCount实例出错:Error connecting to localhost:9999 java.net.ConnectException: Connection refused 解决办法:如果代码没有问题,那么肯定是没有开启9999号端口。...原创 2018-05-03 19:35:00 · 1975 阅读 · 0 评论 -
Spark基础知识
[译]Spark基础知识本文章译自http://spark.apache.org/docs/latest/sql-programming-guide.html#overview Overview Spark SQL是Spark中的一个模块,为了进行结构化数据处理。不像Spark中其他的RDD的API, 由SparkSQL提供的接口,为Spark提供了更多关于正在执行的计算和数据的结构的...翻译 2018-07-24 17:38:11 · 355 阅读 · 0 评论 -
Spark系统知识之二
Spark系统知识之一1.Spark前言Spark一个分布式计算系统,可以替代MR编程模型 1.流计算 批处理 SparkSQL 2.只要学习spark一中语言,就可以搞定其所有的知识 3.spark全方位的软件站 4.spark同时可以读取hdfs中的数据 5.spark同时也可以和HBASE,hive等交流 6.spark现在已经完全超过hadoop了 7.hadoop...原创 2018-07-25 10:03:32 · 437 阅读 · 0 评论 -
Spark的设计和运行原理
Spark的设计和运行原理1.spark底层运行原理2.spark(计算框架)的主要特点1.运行速度快 使用DAG执行引擎以支持循环数据流,内存计算 2.通用性 SQL查询,流式计算,机器学习和图算法组件 3.容易使用 支持使用Scala,Java,Python,R语言等编程,可以通过Spark shell进行交互式编程 4.运行模式多样性:可运行在独立的集群模式...原创 2018-07-25 10:12:14 · 707 阅读 · 0 评论 -
RDD的运行原理
RDD的运行原理0.前言01,许多迭代式算法(机器学习,图算法)和交互式数据 (挖掘工具) 不同的计算阶段之间会重用中间结果 02,目前的MapReduce框架都是把中间结果写入到HDFS中,带来大量的数据复制,磁盘IO和序列化开销RDD就是为了满足上述的问题而设计的,提供了一个抽象的数据结构 01.不必担心底层数据的分布式特性,只需要将具体的应用逻辑表达为一系列转换处理 0...原创 2018-07-25 10:18:10 · 1198 阅读 · 0 评论 -
RDD编程
RDD编程1.RDD编程概述—-整个spark的核心 2.pari RDD 3.共享变量【重要】 4.数据读写 5.WordCount程序解析1.RDD编程概述1.RDD创建, 01.Spark采用textFile()方法从文件系统中加载数据创建RDD 该方法把文件的URI作为参数,这个URI可以是: 001.本文件系统的地址; 002.或者是分布式...原创 2018-07-25 10:20:20 · 438 阅读 · 0 评论 -
Spark案例实战之二
Spark案例实战之二0.如果打开的是本地文件,则是三个’/’,如file:///usr/local/spark/mycode/wordcount/word.txt 01.reduceByKey((a,b)=> a+b) 把具有相同键的map的value加起来 02,如果是集群环境下,想在driver节点上打印所有结果,就需要使用collect方法,1.pair RDD的创建方...原创 2018-07-25 10:26:16 · 3921 阅读 · 0 评论 -
Spark案例实战之三
Spark案例实战之三一.简易日志分析1.现有如下记录的日志,欲把每种状态提取并计数,然后从低到高排数。INFO This is a message with contentINFO This is some other contentINFO Here are more messagesWARN This is a warningERROR Something bad h...原创 2018-07-27 22:03:44 · 955 阅读 · 0 评论 -
SparkSession中出现Exception in thread "main" java.lang.AbstractMethodError
1.使用SparkSession时,出现异常:Exception in thread "main" java.lang.AbstractMethodError 2.查看pom.xml文件,是否是因为spark-core和spark-sql的版本不匹配导致?<dependency> <groupId>org.apache.spark</groupI...原创 2018-04-17 21:50:39 · 5155 阅读 · 3 评论 -
Spark案例实战之一
一.计算最受欢迎的老师1.项目需求:现有某网络上的访问日志,现需要计算某一学科下被访问次数最多的老师。 2.网络的url如右:http://bigdata.xiaoniu.com/laozhaobigdata表示学科,laozhao表示教师。 3.代码如下:import java.net.URLimport org.apache.spark.rdd.RDDimport org...原创 2018-04-11 20:30:06 · 3634 阅读 · 0 评论 -
Spark系统知识讲解之一
Spark一.Spark的基本命令1.可以将Spark的计算结果保存到hdfs中,比如命令: saveAstextFile("hdfs://localhost:9000/output"),即是将数据保存在hdfs中 2.spark给操作系统预留了一点内存,掌握了scala之后,就可以很方便地写spark程序了 3.当以后有很多master时,假设你又不知道该连接哪一个master...原创 2018-04-08 17:35:22 · 455 阅读 · 0 评论 -
error:value reduceByKey is not a member of Array[(String, Int)]
Scala报错value reduceByKey is not a member of Array[(String, Int)]1.原因在于在spark中,使用scala编程时,没有使用pairRDD 。 2.错误代码示例:val book = Array(("spark",2),("hadoop",6),("hadoop",4),("spark",6))val result =...原创 2018-04-09 10:07:17 · 4832 阅读 · 0 评论 -
Spark简单案例实战
Spark简单案例实战一.给定一组键值对(“spark”,2),(“hadoop”,6),(“hadoop”,4),(“spark”,6)键值对的key表示图书名称,value表示每天图书销量,请计算出每个键对应的平均值,也就是每种图书每天的平均销量。1.代码如下:val book = Array(("spark",2),("hadoop",6),("hadoop",4),("...原创 2018-04-09 10:13:16 · 2298 阅读 · 0 评论 -
Spark中常见方法的使用
Spark中常见方法的使用1.reduceByKey() 在scala中,reduce表示进行某种操作,但是具体是何种操作,需要使用自己传递的函数作为参数。 但是这里的reduceByKey()则是将具有相同键的value合并,然后形成一个map,示例代码如下:scala> val book = Array(("spark",2),("hadoop",6),("hadoop"...原创 2018-04-09 10:34:16 · 3028 阅读 · 0 评论 -
spark-shell --master yarn-client启动报错
报错信息:[root@localhost ~]# spark-shell --master yarn-clientException in thread "main" java.lang.Exception: When running with master 'yarn-client' either HADOOP_CONF_DIR or YARN_CONF_DIR must be set i...原创 2018-04-09 13:15:07 · 1231 阅读 · 0 评论 -
Spark中读写mysql数据库
Spark中读写MySQL数据库一.使用Intellij编写Spark程序读取MySQL数据库1.在windows系统中,安装有mysql数据库。主要情况如下:mysql&gt; show databases;+------------------------+| Database |+------------------------+| i...原创 2018-04-14 12:50:50 · 4736 阅读 · 5 评论 -
转换操作(Transformation)和行为操作(Action)
转换操作(Transformation)和行为操作(Action)1.转换操作filter map():map接收一个函数作为参数,并将RDD中的所有元素都执行这个函数,然后将对应的执行结果存放在RDD中。但是实际上,map()并不执行实际的行动。代码如下:scala> val inputRDD = sc.parallelize(List(1,2,3,4))input...原创 2018-04-10 09:28:21 · 1870 阅读 · 0 评论 -
Spark学习笔记之二
Spark学习笔记之二一.RDD的五个基本特征A Resilient Distributed Dataset (RDD), the basic abstraction in Spark. Represents an immutable, partitioned collection of elements that can be operated on in parallel. Thi...原创 2018-04-15 19:53:57 · 361 阅读 · 0 评论 -
Spark中RDD的常见方法
Spark中RDD的常见方法一.集合中的常见方法1.union(),求出两个RDD的并集 2.intersection(),求出两个RDD的交集 3.subtract(),求出去除某个RDD中所有元素外的元素 4.这些集合的方法适合所有类型相同的RDD,【这些元素可以是数字,可以是字符串】 4.代码如下:scala> val rdd1 =sc.paralleliz...原创 2018-04-10 15:36:37 · 3526 阅读 · 0 评论 -
在Spark-shell中写程序出现error:not found :value StorageLevel
1.具体环境如下: 在Centos 6.5系统,使用Spark-shell编写Scala程序,使用RDD的persist方法时,出现报错如下: <console>:27: error: not found: value StorageLevel 2.可能有两种错误原因对象并非RDD,而只是一个普通的变量没有导入Spark的程序包,所以导致无法加载出StorageLevel...原创 2018-04-10 16:17:31 · 5160 阅读 · 0 评论 -
在Windows上使用Intellij编写Spark程序访问文件
在Windows上使用Intellij编写Spark程序访问文件访问txt文件1.使用Spark访问的文件类型有很多种,包括txt,csv,json等。下面依次使用做访问 2.本程序使用maven+intellij+spark+windows编写访问.txt文件import org.apache.spark.{SparkConf, SparkContext}obj...原创 2018-04-10 22:04:30 · 674 阅读 · 1 评论 -
Spark案例实战之四
Spark案例实战之四一.微博专栏分析1.需求:有一个微博网站,下面有很多栏目,每个栏目下面都有几千万用户,每个用户会有很多的粉丝,要求取出各栏目粉丝量最多的用户TopN。【可用TreeMap实现,专栏:feature, 粉丝:fan】 日志每行记录如下: 体育 user01 user04 user05 user08 user09 user10 其中体育是专栏名,user01是用户...原创 2018-07-27 22:04:17 · 1378 阅读 · 0 评论