自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 收藏
  • 关注

转载 spark系列二:jdbc数据源实例

Spark SQL支持使用JDBC从关系型数据库(比如MySQL)中读取数据。读取的数据,依然由DataFrame表示,可以很方便地使用Spark Core提供的各种算子进行处理。 这里有一个经验之谈,实际上用...

2019-07-12 19:42:08 177

转载 spark系列一:共享变量(broadcast和accumulator)

spark一个重要的特性就是共享变量:共享变量原理:默认情况下,如果在一个算子的函数中使用到了某个外部的变量,那么这个变量的值会被拷贝到每个task中。此时每个task只能操作自己的那份变量副本。如果多个task想要共享...

2019-06-30 22:21:04 281

转载 python实例方法、类方法和静态方法的区别

python实例方法、类方法和静态方法的区别 首先看一个实例,类A中的方法依次是实例方法、类方法和静态方法 class A(object): ...

2019-06-03 10:30:05 181

转载 spark系列二:sparkcore和sparksql综合案例

数据格式:日期 用户 搜索词 城市 平台 版本 需求:1、筛选出符合查询条件(城市、平台、版本)的数据2、统计出每天搜索uv排名前3的搜索词3、按照每天的top3搜索词的uv搜索总次数,倒序排序...

2019-05-23 18:18:05 523

转载 hadoop启动时,报ssh: Could not resolve hostname xxx: Name or service not known

错误信息: [root@master hadoop]# sbin/start-dfs.sh warnning classes where applicable Starting namenodes...

2019-05-21 08:12:05 10821

转载 spark系列一:使用持久化机制和不使用持久化的原理及实战

rdd持久化原理:rdd可以持久化到内存,当对dd执行持久化操作时,每个节点都会将自己的操作的rdd的parition持久化到内存中,并且在之后对该rdd的反复使用中,直接使用内存缓存的partition,这样对于一个反复执...

2019-05-20 17:51:04 267

转载 spark系列一:wordcount程序原理剖析及spark架构原理

wordcount程序原理剖析:wordcount程序原理深度剖析.pngspark架构原理:Spark架构原理.png ...

2019-05-10 11:30:06 292

转载 spark系列一:transaction和action介绍

spark支持两种RDD操作,transaction和action。transaction操作是对已有的RDD创建一个新的RDD;而action操作主要是正对RDD做最后的操作,比如遍历、reduce、保存到文件等,并可以...

2019-05-07 12:03:05 974

转载 spark系列二:sparksql dataframe常用操作

使用json文件创建 dataframe演示常用操作java版本: package cn.spark.study.core; import org.apache.spark.SparkConf;imp...

2019-05-07 08:18:05 146

转载 spark系列三:sparkstreaming之输入DStream之Kafka数据源实战(基于Direct的方式)

基于Receiver的直接方式,是在Spark 1.3中引入的,从而能够确保更加健壮的机制。替代掉使用Receiver来接收数据后,这种方式会周期性地查询Kafka,来获得每个topic+partition的最新的offs...

2019-05-04 10:36:04 259

转载 spark系列一:内核架构及宽窄依赖及提交模式分析

1、内核架构Spark内核架构深度剖析.png2、宽窄依赖划分:.png3、提交模式:YARN的两种提交模式深度剖析.png ...

2019-04-24 11:33:05 83

转载 spark系列一:transaction操作实战

1、算子实战: package cn.spark.study.core; import java.util.Arrays;import java.util.Iterator;import...

2019-04-10 19:06:06 247

转载 spark系列二:load和save

对于Spark SQL的DataFrame来说,无论是从什么数据源创建出来的DataFrame,都有一些共同的load和save操作。load操作主要用于加载数据,创建出DataFrame;save操作,主要用于将DataFra...

2019-03-31 09:57:05 373

转载 spark系列二:parquet数据源之自动合并元数据

+--------+----+-----+ 如同ProtocolBuffer,Avro,Thrift一样,Parquet也是支持元数据合并的。用户可以在一开始就定义一个简单的元数据,然后随着业务需要,逐渐往元数据中添加更...

2019-03-26 11:21:05 228

转载 spark系列三:sparkstreaming基于hdfs实时wordcount案例

HDFS文件基于HDFS文件的实时计算,其实就是,监控一个HDFS目录,只要其中有新文件出现,就实时处理。相当于处理实时的文件流。 streamingContext.fileStream<KeyCla...

2019-03-20 21:51:05 158

转载 spark系列二:parquet数据源之自动分区推断

表分区是一种常见的优化方式,比如Hive中就提供了表分区的特性。在一个分区表中,不同分区的数据通常存储在不同的目录中,分区列的值通常就包含在了分区目录的目录名中。Spark SQL中的Parquet数据源,支持自动根据目录...

2019-03-17 09:12:07 196

转载 spark系列一:wordcount程序排序

要求对统计的单词的次数降序排列:java版本: package cn.spark.study.core; import java.util.Arrays; import org.apache....

2019-03-04 17:06:07 187

转载 spark系列二:开窗函数实例

Spark 1.4.x版本以后,为Spark SQL和DataFrame引入了开窗函数,比如最经典,最常用的,row_number(),可以让我们实现分组取topn的逻辑。 package cn.spark.stud...

2019-02-22 19:18:06 404

转载 spark系列一:java和scala及spark-shell开发wordcount程序

spark学习记录,希望能坚持下去环境:centos6.5+spark1.3+hadoop2.4.11、代码开发:package cn.spark.study.core; import java.u...

2019-02-18 19:06:04 213

转载 spark系列二:parquet数据源常用操作之使用编程方式加载数据

Parquet是面向分析型业务的列式存储格式,由Twitter和Cloudera合作开发,2015年5月从Apache的孵化器里毕业成为Apache顶级项目,最新的版本是1.8.0。 列式存储和行式存储相比有哪...

2019-02-15 15:42:06 147

转载 spark系列二:sparksql内置函数实例

在Spark 1.5.x版本,增加了一系列内置函数到DataFrame API中,并且实现了code-generation的优化。与普通的函数不同,DataFrame的函数并不会执行后立即返回一个结果值,而是返回一个Column...

2019-02-01 09:36:05 166

转载 spark系列一:二次排序diy

创建secondarysort对象package cn.spark.study.core;import scala.Serializable; public class secondary...

2019-01-17 09:51:04 57

转载 spark系列一:action操作开发实战

实例代码:1、java版本: package cn.spark.study.core; import java.util.Arrays;import java.util.List;import j...

2018-12-29 21:51:05 85

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除