StructuredStreaming 内置数据源及实现自定义数据源

StructuredStreaming 内置数据源及实现自定义数据源 版本说明: Spark:2.3/2.4 代码仓库:https://github.com/shirukai/spark-structured-datasource.git 1 Structured内置的输入源 Source 官...

2019-01-29 11:37:48

阅读数 35

评论数 0

linux配置yum本地源

linux配置yum本地源 往往安装某些软件时,依赖的东西太多,或者网络原因,容易造成软件安装失败,这时候我们可以配置yum本地源,将需要的软件的rpm包同步到本地,然后使用本地源。例如安装ambari的时候,我们通常把ambari的安装源同步到本地,然后安装。 1 安装httpd Httpd...

2019-01-05 20:27:40

阅读数 34

评论数 0

CDH Manager API 操作Yarn资源池

CDH Manager API 操作Yarn 资源池 版本说明:CDH 5.11.0 API版本:v16 1 API 权限认证 在使用REST API 访问 CDH Manager 提供的相关接口的时候,需要进行权限认证。认证的类型是 Basic Auth。在java编程中将如下所示生成aut...

2018-12-22 17:16:27

阅读数 111

评论数 0

HBase单机伪分布式安装

HBase单机伪分布式安装 版本说明: hadoop-2.7.6 zookeeper-3.4.13 hbase-2.1.0 1 下载安装包 官网地址:http://hbase.apache.org/downloads.html 1.1 下载安装包 在官网下载相应版本的安装包,这里下载的是hba...

2018-12-22 17:13:41

阅读数 52

评论数 0

Elasticsearch与Kibana部署及使用

Elasticsearch与Kibana部署及使用 安装环境 Mac OS 适用于Linux 版本说明 Elasticsearch:6.4.0 Kibana:6.4.0 1 Elasticsearch部署及使用 官网:https://www.elastic.co/ 1.1 下载Elasti...

2018-12-22 17:13:17

阅读数 48

评论数 0

CentOS7下yum安装MariaDB与简单配置

CentOS7下yum安装MariaDB与简单配置 开始之前要确保已经安装yum并且配置好相关的源。 一、 安装命令: yum -y install mariadb mariadb-server 二、启动MariaDB systemctl start mariadb 三、 设置开机启动 sys...

2018-12-22 17:11:00

阅读数 52

评论数 0

Python基于单例模式实现具有时效性的内存缓存

Python基于单例模式实现具有时效性的内存缓存 版本说明:Python 2.7 Python有不少第三方的缓存库,如cacheout、memcached等。因为项目需求,这里不使用第三方库,自己实现具有时效性的内存缓存,用来缓存重复利用的数据。 1 设计实现 1.1 思路 采用dict()作...

2018-12-22 16:55:01

阅读数 30

评论数 0

Spark读写Elasticsearch

Spark读写Elasticsearch 版本说明 Spark:2.3.1 Elasticsearch: elasticsearch-6.4.0 1 Scala环境下Spark读写Elasticsearch 1.1 依赖包 1.1.1 Spark依赖 <dependenc...

2018-12-22 16:54:15

阅读数 106

评论数 0

SparkStreaming 解析Kafka JSON格式数据

SparkStreaming 解析Kafka JSON格式数据 项目记录:在项目中,SparkStreaming整合Kafka时,通常Kafka发送的数据是以JSON字符串形式发送的,这里总结了五种SparkStreaming解析Kafka中JSON格式数据并转为DataFrame进行数据分析的...

2018-12-22 16:53:25

阅读数 397

评论数 5

SparkStreaming 读写Kafka

Spark/Streaming 读写Kafka 版本说明 kafka:2.12-2.0.0 spark: <spark.version>2.3.0</spark.version> scala依赖包: &a...

2018-12-22 16:52:56

阅读数 66

评论数 0

SparkSQL数据源操作

SparkSQL数据源操作 版本说明: spark-2.3.0 SparkSQL支持很多数据源,我们可以使用Spark内置的数据源,目前Spark支持的数据源有:json,parquet,jdbc,orc,libsvm,csv,text。也可以指定自定义的数据源,只需要在读取数据源的时候,指定...

2018-12-22 16:51:52

阅读数 39

评论数 0

SparkSQL内置函数

Spark SQL 内置函数 版本说明:spark-2.3.0 SparkSQL内置函数官网API:http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.functions%24 C...

2018-09-12 18:02:36

阅读数 153

评论数 0

Spark DataFrame列的合并和拆分

Spark DataFrame 列的合并与拆分 版本说明:Spark-2.3.0 使用Spark SQL在对数据进行处理的过程中,可能会遇到对一列数据拆分为多列,或者把多列数据合并为一列。这里记录一下目前想到的对DataFrame列数据进行合并和拆分的几种方法。 1 DataFr...

2018-09-12 17:57:03

阅读数 1962

评论数 0

Sprinboot整合Quartz实现定时任务调度管理

Sprinboot整合Quartz实现定时任务调度管理 版本说明: springboot版本:2.0.0.RELEASE quartz版本:2.3.0 github地址:https://github.com/shirukai/quartz-demo.git ...

2018-09-10 15:15:59

阅读数 116

评论数 0

Springboot项目整合MongoDB

Springboot项目整合MongoDB 本文主要记录在Springboot项目中整合MongoDB,并演示增删改查,以及分页查询。 1 整合MongoDB 1.1 引入依赖 在sparingboot项目中引入MongoDB依赖 <!--mongodb...

2018-08-28 18:03:54

阅读数 189

评论数 0

CentOS下安装MongoDB

CentOS下安装MongoDB MongoDB 是一个基于分布式文件存储的数据库。由 C++ 语言编写。旨在为 WEB 应用提供可扩展的高性能数据存储解决方案。 MongoDB 是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。 1 下载安装...

2018-08-28 18:02:05

阅读数 344

评论数 0

CentOS环境下部署kafka集群

CentOS下部署kakfa集群 zookeeper版本:zookeeper-3.4.13 kakfa版本:kafka_2.11-2.0.0 1 环境准备 在已有zookeeper集群上,部署kakfa集群。 zookeeper集群主机信息如下: hostname i...

2018-08-28 18:01:30

阅读数 51

评论数 0

CentOS下部署zookeeper集群

CentOS下部署zookeeper集群 版本:zookeeper-3.4.13 1 环境准备 1.1 准备三台机器 机器信息如下: hostname ip 端口 master.hadoop.com 192.168.162.180 2181/2...

2018-08-28 18:00:26

阅读数 68

评论数 0

kafka自定义消息序列化和反序列化方式

kafka自定义消息序列化和反序列化方式 版本说明: kafka版本:kafka_2.12-2.0.0.tgz pom依赖: <dependency> <groupId&a...

2018-08-28 17:59:11

阅读数 1372

评论数 0

django配置settings详解

Settings详解 项目根目录: BASE_DIR = os.path.dirname(os.path.dirname(os.path.abspath(__file__))) 项目安全码: SECRET_KEY = ')b)3406p#v$u4ft(v@9ex*=0*w1...

2018-08-28 14:55:33

阅读数 69

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭