- 博客(349)
- 资源 (10)
- 收藏
- 关注
原创 PySpark Structured Streaming kafka示例
PySpark Structured Streaming kafka示例直接上代码:#!/usr/bin/env python3 # -*- coding: utf-8 -*-from pyspark.sql import SparkSessionfrom pyspark.sql.functions import from_jsonfrom pyspark.sql.types...
2019-01-14 10:13:29
3143
2
原创 Structured Streaming流数据Sink到Mysql
Structured Streaming流数据Sink到MysqlStructured Streaming在Write的过程,并没有提供jdbc的写入format格式。所以需要自己通过foreach自己实现。具体实现代码如下:StructuredWriteMysql类package com.testimport java.sql.Connectionimport org.apac...
2019-01-11 16:25:19
3573
5
原创 Structured Streaming与Kafka的整合,实现不同json结构解耦
Structured Streaming与Kafka的整合,实现不同json结构解耦问题:Structured Streaming从kafka的不同topic读取数据,每个topic的value存取的数据格式是不同的。那么怎么使用一套模版代码,分别对多个topic进行读取数据。做到解耦呢?思考:Structured Streaming读取kafka的操作是一致的,只是对kafka的value值...
2019-01-10 16:46:35
3307
原创 Structured Streaming入门实例
Structured Streaming入门实例Structured Streaming是Spark2.4版本推出的新的实时流处理计算。相比Spark Streaming具有更低的延迟。具体信息请看:Structured Streaming官方介绍示例一:words countScala代码package com.testimport org.apache.log4j.{Leve...
2019-01-10 16:44:56
3678
1
原创 磁盘容量监控python脚本实现
磁盘容量监控脚本实现需求:检测/data路径下的磁盘容量是否超出阈值,超出阈值,发送邮件通知。代码:diskcheck.py#!/usr/bin/env python# -*- coding: utf-8 -*-import smtplibimport socketfrom email.mime.text import MIMETextfrom email.header impor...
2018-12-28 09:43:22
3446
原创 Spark UDF实践之json解析
Spark UDF实践之json解析我们一般使用spark处理json字段时,通常使用schema来约束json的字段,但是json数据中也会有一些需要特殊处理的字段需要获取,那么我们就需要通过UDF来进行处理了。下面解析一个json的数据做一个示例:json数据源:{"final_score":16, "risk_items":[{"item_id":3403925, "item_nam...
2018-12-20 16:10:18
1856
原创 Phoenix的安装和结合HBase简单使用
Phoenix的安装和结合HBase简单使用Phoenix是建立在HBase数据存储之上,可以通过jdbc的方式访问HBase,旨在通过sql可以更快的访问HBase的数据。关于Phoenix的性能一、Phoenix简单安装1.1 下载因为的HBase版本是1.2,所以下载对应的Phoenix版本的包wget http://apache.fayea.com/phoenix/apach...
2018-11-13 13:47:37
4386
原创 MongoDB on Spark的参数优化
MongoDB on Spark的参数优化mongodb on spark的参数:mongodb on spark的参数基本分为输入参数和输出参数。1. mongodb on spark输入的参数:spark.mongodb.input.uri:mongo的uri,如:mongodb://host:port/或者直接指定数据库和集合:mongodb://host:port/data...
2018-10-26 22:41:18
3403
原创 MongoDB on SparkSql的读取和写入操作(Scala版本)
MongoDB on SparkSql的读取和写入操作(Scala版本)1.1 添加依赖需要添加一下依赖:<!-- spark 连接 mongo的连接器 --><dependency> <groupId>org.mongodb.spark</groupId> <artifactId>mongo-spark-conn...
2018-10-26 22:40:16
12431
2
原创 MongoDB on SparkSql的读取和写入操作(Python版本)
MongoDB on SparkSql的读取和写入操作(Python版本)1.1 读取mongodb数据python方式需要使用pyspark 或者 spark-submit的方式进行提交。下面pyspark启动的方式:1.1.1 使用pyspark启动命令行# 本地安装的spark版本为2.3.1,如果是其他版本需要修改版本号和scala的版本号pyspark --package...
2018-10-26 22:39:31
4449
原创 Azkaban3.X 多个executors安装文档
Azkaban3.X 多个executors安装文档1.编译源码1.1 克隆源代码git clone https://github.com/azkaban/azkaban.git1.2 编译# 进入azkaban目录cd azkaban; # 使用gradle编译项目./gradlew build installDist编译完成后,会在如azkaban-executor-...
2018-10-26 22:19:51
3074
原创 Spring Boot(七)之apidoc生成
Spring Boot(七)之apidoc生成1.安装apidoc在安装apidoc之前需要安装node.js,下面介绍下Mac OS安装1.1 安装node.js前往 https://nodejs.org/en/ 下载node.js的最新版本,双击.pkg进行安装一路安装即可,安装完成后,在终端输入node -v,npm -v。出现对应的版本号表示安装成功。1.2...
2018-08-18 20:51:20
8948
2
原创 Spring Boot(六)之根据环境不同自定义变量
Spring Boot(六)之根据环境不同自定义变量1.在不同环境下配置自定义的变量在application-dev.yml中# 自定义属性connect: env: dev ip: 127.0.0.1 username: dev password: 123456在application-test.yml中# 自定义属性connect: en...
2018-08-18 20:50:36
2133
原创 Spring Boot(五)之多环境配置与打包
Spring Boot(五)之多环境配置与打包一般我们大致会分为dev(开发),test(测试),prod(生产)。每套环境的数据库以及一些参数配置项是有差异的,所以针对上诉情况,需要多个环境的配置项,以及针对环境进行打包。1. 创建不同环境的application.yml如图:在application.yml文件中添加如下配置:# 指定执行环境spring: ...
2018-08-18 20:49:29
24185
2
原创 Spring Boot(四)之添加log配置
Spring Boot(四)之添加log配置1.在项目中创建一个logback.xml文件文件内容如下:<?xml version="1.0" encoding="UTF-8"?><configuration scan="false"> <!--设置logPath的变量,变量的值:/Webapp/springboot-mybatis-d...
2018-08-18 20:48:24
8533
原创 Spring Boot(三)之jar包改成war包模式
Spring Boot(三)之jar包改成war包模式修改pom.xml文件将jar包改成war包<!--<packaging>jar</packaging>--><packaging>war</packaging>添加Spring Boot 的tomcat依赖<!--添加tomcat-...
2018-08-18 20:47:28
18838
原创 Spring Boot(二)之与Mybatis结合使用
Spring Boot(二)之与Mybatis结合使用这是使用的是mybatis的xml方式,还有注解的方式1.创建项目1.1 创建一个Project1.2 编辑Project Metadata1.3 添加Web程序和SQL程序添加Web程序勾选Web程序添加SQL程序勾选MySQL,JDBC,MyBatis三项点击Next1.4 选...
2018-08-18 20:46:36
4333
2
原创 Spring Boot(一)之请求接口示例
Spring Boot(一)之请求接口示例1. 创建一个Spring Boot的web程序1.1 创建一个Project选择Spring Initializr,点击Next。1.2 编辑Project Metadata,如图:修改Group,Artifact,点击Next1.3 选择Web程序点击Next1.4 选择项目的目录点击Finish...
2018-08-18 20:44:38
8479
1
原创 java远程调用shell脚本
java远程调用shell脚本1.添加依赖<!-- ssh远程调用的依赖 --><dependency> <groupId>ch.ethz.ganymed</groupId> <artifactId>ganymed-ssh2</artifactId> <version>bu
2018-08-18 20:43:40
6286
原创 Kafka常用命令
Kafka常用命令kafka启动命令# 指定对应的配置文件启动kafka-server-start.sh /hadoop/kafka/config/server.properties# -daemon 以后台的方式启动kafka-server-start.sh -daemon /hadoop/kafka/config/server.properties# 指定JMX p...
2018-07-14 19:05:53
5453
原创 Kafka Manager的使用
Kafka Manager的使用1.安装Kafka Manager是雅虎开发的一个基于Web的kafka管理工具。具有非常强大的功能。kafka manager项目地址:https://github.com/yahoo/kafka-manager下载编译kafka manager# 从git上下载Kafka manager源码git clone https://githu...
2018-07-08 11:46:22
8866
原创 Spark Streaming自定义Receiver类
Spark Streaming自定义Receiver类1.自定义CustomReceiverclass CustomReveicer(host: String, port: Int) extends Receiver[String](StorageLevels.MEMORY_AND_DISK_2) with Logging { override def onStart(): ...
2018-06-08 12:50:52
1085
1
原创 Spark core优化配置参数
Spark core优化配置参数 应用属性 描述 spark.driver.cores 在集群模式下管理资源时,用于driver程序的CPU内核数量。默认为1。在生产环境的硬件上,这个值可能最少要上调到8或16。 spark.driver.maxResultSize 如果应用频繁用此driver程序,建议对这个值的设置高于其默认值“1g”。0表示没有限制。...
2018-06-08 12:30:27
9834
3
原创 HBase性能优化
HBase性能优化zookeeper.session.timeoutRegionServer与Zookeeper间的连接超时时间。默认3分钟。当超时时间到后,ReigonServer会被Zookeeper从RS集群清单中移除,HMaster收到移除通知后,会对这台server负责的regions重新balance,让其他存活的RegionServer接管.调优这个timeout...
2018-06-08 12:29:43
530
原创 Kafka核心配置参数与机制
Kafka核心配置参数与机制1. kafka集群安装kafka集群安装,参考文章: Kafka集群搭建及生产者消费者案例2. kafka配置参数broker.id:broker的id,id是唯一的非负整数,集群的broker.id不能重复。log.dirs:kafka存放数据的路径。可以是多个,多个使用逗号分隔即可。port:server接受客户端连接的端口,默认6667...
2018-06-08 12:28:38
10095
1
原创 Logstash的简单使用
Logstash的简单使用Logstash安装下载官方网站下载页面: https://www.elastic.co/cn/downloads/logstash这里使用的是logstash6.2.2版本解压上传到server01机器 scp logstash-6.2.2.tar.gz hadoop@server01:/hadoop解压即是安...
2018-05-18 15:24:12
3490
原创 ElasticSearch集群搭建及启动异常的问题
ElasticSearch集群搭建本文采用ElasticSearch5.6.9版本,采用3台机器安装,分别为server01,server02,server03。机器的系统是CentOS6.9版本ElasticSearch集群是采用leader选举机制来产生master1.下载并解压1.1 官网下载地址: https://www.elastic.co/cn/downlo...
2018-05-18 15:23:13
5006
原创 Hbase高可用集群搭建
Hbase高可用集群搭建本文采用3台机器,server01,server02,server03机器搭建。server01 : 主Masterserver02 : 备用的Masterserver01,server02,server03 : 分别为Worker1. 下载并解压安装包1.1 下载Hbase官网下载地址 http下载对应版本的的Hbase就...
2018-05-16 14:28:53
2677
原创 Hive Schema version 1.2.0 does not match metastore's schema version 2.1.0 问题
Hive Schema version 1.2.0 does not match metastore’s schema version 2.1.0 问题Caused by: MetaException(message:Hive Schema version 2.1.0 does not match metastore’s schema version 1.2.0 Metastore is no...
2018-05-16 08:58:20
3986
2
原创 Hive与Hbase的整合
Hive与Hbase的整合1. Hbase表映射到Hive表中1.1 Hive的配置文件修改1.1.1 修改hive-site.xml配置文件,添加配置属性&lt;property&gt; &lt;name&gt;hbase.zookeeper.quorum&lt;/name&gt; &lt;value&gt;server01:2181,se
2018-05-15 20:16:45
2720
原创 Hbase Shell命令行基本操作
Hbase Shell命令行基本操作创建表# 'hbase_test':表名,''不能丢# {NAME => 'f1',VERSION => 1}:列簇,'f1'表示列簇名称,NAME => '':格式必须这样写create 'hbase_test',{NAME => 'f1',VERSION => 1},{NAME => 'f2',VER...
2018-05-15 20:16:09
6118
原创 Flume+Kafka+SparkStreaming之wordcount示例
Flume+Kafka+SparkStreaming的结合使用之wordcount示例1. 生成log的py脚本脚本文件名称:produce_log3.py,内容如下:import timeimport schedimport randomdef create_log(): file = open("/home/hadoop/log/access.log", ...
2018-05-13 14:08:44
1685
1
原创 SparkStreaming基本使用与Window简单的介绍
SparkStreaming基本使用与Window简单的介绍1. SparkStreaming基本使用1.1 pom.xml的依赖<dependencies> <dependency> <groupId>org.scala-lang</groupId> <artifactId>sca...
2018-05-13 14:07:37
3231
原创 SparkSql中DataFrame与json、csv、mysql、hive数据的互操作
SparkSql中DataFrame与json、csv、mysql、hive数据的互操作1.RDD转换成DataFrame1.1 RDD to DataFrameRDD转成DataFrame有2种方式,一种是通过隐式转换,一种是通过SparkSession来进行创建。1.1.1 RDD隐式转换成DataFrame(推荐)object RDDToDF { def ma...
2018-05-12 15:32:08
8489
1
原创 常用SparkRDD容易混淆的算子区别(Scala版本)
常用SparkRDD容易混淆的算子区别1.map与flatMap的区别# 初始化数据val rdd1 = sc.parallelize(Array("hello world","i love you"))map# map算子rdd1.map(_.split(" ")).collect# map算子结果输出res0: Array[Array[String]] =...
2018-05-08 23:45:11
2823
1
原创 Linux平台pysprak默认使用IPython编辑器
Linux平台pysprak默认使用IPython编辑器之前写过一篇Spark在windows上默认使用IPython编辑器的文章。linux上通过pyspark使用ipython其实是一样改法的。要想pysaprk默认使用ipython,我们需要先安装ipython。这里直接安装 Anaconda。1. Anaconda安装1.1 下载进入下载页面,选择需要下载的安装包...
2018-05-08 00:52:09
494
原创 Spark之本地模式与集群模式
Spark之本地模式与集群模式1.spark-shell的本地模式和集群模式1.1 local本地模式直接启动spark-shell命令窗口脚本启动后,会生成一个SparkContext的上下文对象sc。并且启动的是本地模式(local)。如图:1.1.1 加载本地数据sc.textFile("file:///home/hadoop/words.txt").fl...
2018-05-07 22:20:36
10099
原创 Spark的Standalone模式之HA集群搭建
Spark的Standalone模式之HA集群搭建前言本文使用Spark的版本为:spark-2.3.0-bin-hadoop2.7.tgz。spark的集群采用3台机器进行搭建,机器分别是server01,server02,server03。其中:server01,server02设置为Master,server01,server02,server03为Worker。...
2018-05-07 13:25:12
928
原创 Flume+Kafka+Storm+Redis流计算实现wordcount示例
Flume+Kafka+Storm+Redis流计算实现wordcount示例一、前言本文采用Flume、kafka、storm、redis来实现一个流计算的wordcount的小案例。集群机器为server01,server02,server03。3台机器上同时执行生成数据的python脚本,Flume的采集程序,zookeeper集群,kafka集群在server01上...
2018-04-28 10:40:35
1372
原创 Kafka集群搭建及生产者消费者案例
Kafka集群搭建及生产者消费者案例本文搭建的集群是采3台机器,分别是server01,server02,server03。linux系统是centos6.7。kafka需要配合zookeeper使用,在安装kafka之前,需要先安装zookeeper集群,关于安装zookeeper集群,可以参考:Zookeeper集群环境搭建一、Kafka集群搭建1.1 下载kafka安装包...
2018-04-27 12:01:28
14720
4
Gradle for Android
2016-11-15
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅