自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 收藏
  • 关注

原创 Spark SQL 之 Aggregation

Spark SQL 之 聚合函数 (Aggregation)案例来自于世界杯足球赛相关数据下载文件 https://www.kaggle.com/abecklas/fifa-world-cup#WorldCups.csv数据样式创建 WorldCUP 的case classcase class WorldCup(year:String, ...

2019-03-04 14:06:20 498

原创 Spark SQL 之 Temporary View

Spark SQL 之 Temporary Viewspark SQL的 temporary view 是支持原生SQL 的方式之一spark SQL的 DataFrame 和 DataSet 均可以通过注册 temporary view 的方式来形成视图案例一: 通过 DataFrame 的方式创建val spark = SparkSession.builder().config(con...

2019-02-16 09:50:50 3577

原创 Spark 之 Datasets 创建方式

创建Datasets 的三种方式由DataFrame 转化成为 Dataset通过 SparkSession.createDataset() 直接创建通过toDS 方法意识转换案例一: 由DataFrame 转化成为 Dataset val spark = SparkSession.builder().config(conf).getOrCreate(); impo...

2019-02-13 17:23:03 1723

转载 Spark: DataFrame vs DataSet

DataFrame vs DataSet1. ObjectiveRecently, there are two new data abstractions released dataframe and datasets in apache spark. Now, it might be difficult to understand the relevance of each one. Al...

2019-02-11 16:38:02 260

原创 SparkSQL之处理结构化数据

SPARKSQL 处理结构化数据同样SPARKSQL 处理机构化数据也存在2个大的API:transformation 和actionTransformation API 列表Operationdescselect对应传统SQL的select 语句selectExprselect 语句中添加表达式filter where过滤条件distinct d...

2019-01-31 13:28:40 991

原创 如何将Spark 源码导入IDEA中

下载spark 源码https://github.com/apache/spark/在branch 中选择 相应的版本,这里我选择2.4版本待下载完成后,解压文件在IDEA中 选择导入项目选择解压源码路径...

2019-01-24 21:15:52 1056

原创 Spark SQL 之 DataFrame 创建的几种方式

SparkSQL 组件在Spark 体系中架构图DataFrameDataframe 的概念有点像传统数据库中的表,每一条记录都代表了一个 Row Object.与RDD的API 类似,DataFrame 的API 可以分为2种: transformations and actions.Dataframe 可以从 Hive 或者其他的 database 中读取创建。如何创建 DataF...

2019-01-22 13:53:15 869

原创 Spark RDD 之 pair (k.v) 操作

这篇文章是关于spark RDD Key/Value Pair 的操作1. 创建 k/v pair 的RDDval sc = new SparkContext(conf);val strArray = List("this is spark","It is fun!","spark is cool");val strRDD = sc.parallelize(strArray);va

2019-01-14 16:23:39 630

原创 Spark之RDD常用操作

test

2019-01-09 09:10:22 903

原创 Cassandra 之多数据中心集群搭建

1. 集群架构如下:准备5台RHL 7.2 的VM servers模拟4台在数据中心TJPDC,一台在数据中心WHDRC此次安装的cassandra 版本是 apache-cassandra-2.2.7数据中心机器列表TJPDC192.168.1.180,192.168.1.181,192.168.1.182,192.168.1.183WHDRC192.1...

2018-12-22 22:16:41 1268

原创 Spark 2.4 之 standalone 集群搭建

本文参考官方文档: http://spark.apache.org/docs/latest/spark-standalone.html1.预先搭建3台hadoop 的集群SERVER INFOversion192.168.1.10RHL6.8 & Hadoop 2.7.3192.168.1.11RHL6.8 & Hadoop 2.7.319...

2018-12-21 23:10:51 529

原创 Cassandra 之Memtable,SSTable

Memtable 是cassandra 写入磁盘之前进入的内存结构区域对于一个写请求来说满足如下2个条件,才会向客户端返回成功成功写入commit_log 中成功写入内存的memtable 中Memtable 满足如下条件,才会从内存中向磁盘sstable 中写数据commit_log 空间到达阈值 commitlog_total_space_in_mb内存空间到达阈值 me...

2018-12-19 15:24:04 1419

原创 Cassandra 之 commit_log

本文介绍了cassandra 之commit_log1. Cassandra 写入数据流程如下a) 写入commit_log 中b) 写入内存的memtable 中c) 最后从内存的memtable中flush 到磁盘的SStables中注意 a) 和 b) 是并行执行的commit_log 的作用类似于oracle的redo log 和 mongo 的 jouney log. ...

2018-12-19 12:59:11 1352

原创 IDEA 中开发第一个Spark 程序

1. 创建一个Maven 项目2. 添加SCALA依赖库修改POM.xml 文件加入 hadoop-client 和spark-core_2.11 的库依赖 <!-- https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-hdfs --> <dependency> <gr...

2018-12-16 17:29:07 879

原创 Spark 2.4 入门之基于Hadoop 2.7.3环境搭建

准备环境3 台 Linux VM Server RHL6.8 * 3Hadoop 2.7.3 集群环境搭建下载Spark 2.4 版本网址: https://spark.apache.org/downloads.html镜像地址 http://mirror.bit.edu.cn/apache/spark/spark-2.4.0/spark-2.4.0-bin-hadoop2.7.t...

2018-12-12 23:11:42 1826

原创 PostgreSQL 10 安装

1. 官网下载软件地址链接: https://www.postgresql.org/ftp/source/v10.0/postgreSQL 的 版本是 10 操作系统是 Red Hat Enterprise Linux Server release 7.2 (Maipo)[root@tjtestrac1 postgreSQL]# wget https://ftp.postgresql....

2018-12-11 10:39:32 2618 1

原创 Kafka 入门教程之三 生产者配置以及发送信息的方式

这篇文章是关于Kafka 生产者配置以及消息的发送方式进行代码级别的案例分享kafka 提供了3种发送信息的方式Fire-and-forget这种方式是不管发送成功与否,客户端都会返回成功。尽管大多数的时候Kafka 在发送失败后,会自己重新自动再一次发送消息,但是也会存在丢失消息的风险Synchronous send这种方式是同步发送的方式,会等待future 对象的返回来判断...

2018-12-03 17:45:53 1167

原创 Kafka 入门教程之二: Java连接Kafka之生产者

1. 检查service配置文件修改参数 listeners = PLAINTEXT://your.host.name:9092注意防火墙对端口的屏蔽[kafka@tjtestrac1 config]$ cd $KAFKA_HOME/config [kafka@tjtestrac1 config]$ vi server.properties########################...

2018-11-30 14:42:00 1010

原创 Kafka 入门教程之一: 安装

Kafka 入门教程之一: 安装1. 官网下载软件http://kafka.apache.org/2. 安装单节点kafkaa) 创建用户kafka[root@tjtestrac1 ~]# useradd kafka [root@tjtestrac1 ~]# passwd kafkaChanging password for user kafka.New password: B...

2018-11-27 15:21:38 959

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除