2018年12月_shirukai

原创 CDH Manager API 操作Yarn资源池

CDH Manager API 操作Yarn 资源池版本说明：CDH 5.11.0API版本：v161 API 权限认证在使用REST API 访问 CDH Manager 提供的相关接口的时候，需要进行权限认证。认证的类型是 Basic Auth。在java编程中将如下所示生成authorization，然后将该认证信息添加到请求头信息中即可。private static Stri...

2018-12-22 17:16:27 3551

原创 HBase单机伪分布式安装

HBase单机伪分布式安装版本说明：hadoop-2.7.6zookeeper-3.4.13hbase-2.1.01 下载安装包官网地址：http://hbase.apache.org/downloads.html1.1 下载安装包在官网下载相应版本的安装包，这里下载的是hbase-2.1.0版本。wget http://mirror.bit.edu.cn/apache/hb...

2018-12-22 17:13:41 788

原创 Elasticsearch与Kibana部署及使用

Elasticsearch与Kibana部署及使用安装环境Mac OS 适用于Linux版本说明Elasticsearch：6.4.0Kibana：6.4.01 Elasticsearch部署及使用官网：https://www.elastic.co/1.1 下载Elasticsearch下载地址：https://www.elastic.co/downloads/elast...

2018-12-22 17:13:17 1919

原创 CentOS7下yum安装MariaDB与简单配置

CentOS7下yum安装MariaDB与简单配置开始之前要确保已经安装yum并且配置好相关的源。一、安装命令：yum -y install mariadb mariadb-server二、启动MariaDBsystemctl start mariadb三、设置开机启动systemctl enable mariadb四、相关配置mysql_secure_installa...

2018-12-22 17:11:00 482

原创 Python基于单例模式实现具有时效性的内存缓存

Python基于单例模式实现具有时效性的内存缓存版本说明：Python 2.7Python有不少第三方的缓存库，如cacheout、memcached等。因为项目需求，这里不使用第三方库，自己实现具有时效性的内存缓存，用来缓存重复利用的数据。1 设计实现1.1 思路采用dict()作为缓存介质，数据以key、value的形式进行保存。key为cache_id，用来标识不同的缓存数据。...

2018-12-22 16:55:01 1552 1

原创 Spark读写Elasticsearch

Spark读写Elasticsearch版本说明Spark:2.3.1Elasticsearch: elasticsearch-6.4.01 Scala环境下Spark读写Elasticsearch1.1 依赖包1.1.1 Spark依赖<dependency> <groupId>org.apache.spark</groupId> ...

2018-12-22 16:54:15 6018

原创 SparkStreaming 解析Kafka JSON格式数据

SparkStreaming 解析Kafka JSON格式数据项目记录：在项目中，SparkStreaming整合Kafka时，通常Kafka发送的数据是以JSON字符串形式发送的，这里总结了五种SparkStreaming解析Kafka中JSON格式数据并转为DataFrame进行数据分析的方法。需求：将如下JSON格式的数据转成如下所示的DataFrame1 使用Python脚...

2018-12-22 16:53:25 24496 22

原创 SparkStreaming 读写Kafka

Spark/Streaming 读写Kafka版本说明kafka：2.12-2.0.0spark：<spark.version>2.3.0</spark.version>scala依赖包：<dependency> <groupId>org.apache.spark</groupId> <artifa...

2018-12-22 16:52:56 912

原创 SparkSQL数据源操作

SparkSQL数据源操作版本说明： spark-2.3.0SparkSQL支持很多数据源，我们可以使用Spark内置的数据源，目前Spark支持的数据源有：json，parquet，jdbc，orc，libsvm，csv，text。也可以指定自定义的数据源，只需要在读取数据源的时候，指定数据源的全名。在https://spark-packages.org/这个网站，我们可以获取到更多的第...

2018-12-22 16:51:52 785

shirukai