Widsom的博客

人的原动力来自对未来的美好憧憬

Flink的Session Window的简单使用

Flink的Session Window的简单使用 一、Session Window的概念 参见官方文档 https://ci.apache.org/projects/flink/flink-docs-release-1.8/dev/stream/operators/windows.html#s...

2019-05-09 16:38:30

阅读数 26

评论数 0

使用gensim计算文本相似度

使用gensim计算文本相似度 计算文本相似度步骤逻辑 1、将文本数据,通过jieba分词进行处理,形成一个二维数组 2、将二维数组生成词典 3、将二维数组通过doc2bow稀疏向量,形成语料库 4、使用TF模型算法,将语料库计算出Tfidf值 5、获取词典token2id的特征数 6、计算稀疏矩...

2019-04-25 15:00:56

阅读数 76

评论数 0

解决Spark 读取 Elasticsearch的array类型报错的问题

解决Spark 读取 Elasticsearch的array类型报错的问题 在我们读取Elasticsearch存储的半结构化的数据是,会遇到需要获取array类型的数据。然而会报错,错误截图如下: es.read.field.as.array.include 通过es.read.field...

2019-03-18 17:48:57

阅读数 116

评论数 0

MongoDB数据写入ES,SparkSQL读取ES的数据简单示例(Python)

MongoDB数据写入ES,SparkSQL读取ES的数据简单示例(Python) 1.MongoDb数据写入ES代码示例 #!/usr/bin/env python # -*- coding: utf-8 -*- import datetime import pymongo from ela...

2019-02-14 15:32:10

阅读数 144

评论数 1

Elasticsearch API简单操作

Elasticsearch API简单操作 在操作Elasticsearch之前,需要先安装Elasticsearch集群,安装博客如:Elasticsearch集群安装 下面介绍简单介绍Elasticsearch的3中操作方式,分别curl,java,python操作。 1.curl操作 基本上...

2019-02-13 17:14:55

阅读数 154

评论数 1

Flink读取Kafka数据Sink到MySQL和HBase数据库

Flink读取Kafka数据Sink到MySQL和HBase数据库 Flink将流数据Sink到数据库,一般需要自己自定义Sink的实现。下面示例,演示Sink到MySQL和HBase示例。 import java.util.Properties import org.apache.flink.a...

2019-01-24 16:53:15

阅读数 977

评论数 2

Flink 简单入门示例

Flink 简单入门示例 1.Flink读取Socket流,实现Word Count示例 import org.apache.flink.streaming.api.scala.{StreamExecutionEnvironment, _} import org.apache.flink.stre...

2019-01-24 14:49:19

阅读数 464

评论数 0

PySpark Structured Streaming kafka示例

PySpark Structured Streaming kafka示例 直接上代码: #!/usr/bin/env python3 # -*- coding: utf-8 -*- from pyspark.sql import SparkSession from pyspark.sq...

2019-01-14 10:13:29

阅读数 161

评论数 0

Structured Streaming流数据Sink到Mysql

Structured Streaming流数据Sink到Mysql Structured Streaming在Write的过程,并没有提供jdbc的写入format格式。所以需要自己通过foreach自己实现。具体实现代码如下: StructuredWriteMysql类 package co...

2019-01-11 16:25:19

阅读数 408

评论数 0

Structured Streaming与Kafka的整合,实现不同json结构解耦

Structured Streaming与Kafka的整合,实现不同json结构解耦 问题:Structured Streaming从kafka的不同topic读取数据,每个topic的value存取的数据格式是不同的。那么怎么使用一套模版代码,分别对多个topic进行读取数据。做到解耦呢? 思考...

2019-01-10 16:46:35

阅读数 283

评论数 0

Structured Streaming入门实例

Structured Streaming入门实例 Structured Streaming是Spark2.4版本推出的新的实时流处理计算。相比Spark Streaming具有更低的延迟。 具体信息请看:Structured Streaming官方介绍 示例一:words count Scala...

2019-01-10 16:44:56

阅读数 206

评论数 0

磁盘容量监控python脚本实现

磁盘容量监控脚本实现 需求:检测/data路径下的磁盘容量是否超出阈值,超出阈值,发送邮件通知。 代码:diskcheck.py #!/usr/bin/env python # -*- coding: utf-8 -*- import smtplib import socket from emai...

2018-12-28 09:43:22

阅读数 450

评论数 0

Spark UDF实践之json解析

Spark UDF实践之json解析 我们一般使用spark处理json字段时,通常使用schema来约束json的字段,但是json数据中也会有一些需要特殊处理的字段需要获取,那么我们就需要通过UDF来进行处理了。 下面解析一个json的数据做一个示例: json数据源: {"...

2018-12-20 16:10:18

阅读数 187

评论数 0

Phoenix的安装和结合HBase简单使用

Phoenix的安装和结合HBase简单使用 Phoenix是建立在HBase数据存储之上,可以通过jdbc的方式访问HBase,旨在通过sql可以更快的访问HBase的数据。 关于Phoenix的性能 一、Phoenix简单安装 1.1 下载 因为的HBase版本是1.2,所以下载对应的Phoe...

2018-11-13 13:47:37

阅读数 649

评论数 0

MongoDB on Spark的参数优化

MongoDB on Spark的参数优化 mongodb on spark的参数: mongodb on spark的参数基本分为输入参数和输出参数。 1. mongodb on spark输入的参数: spark.mongodb.input.uri:mongo的uri, 如:mongodb...

2018-10-26 22:41:18

阅读数 614

评论数 0

MongoDB on SparkSql的读取和写入操作(Scala版本)

MongoDB on SparkSql的读取和写入操作(Scala版本) 1.1 添加依赖 需要添加一下依赖: <!-- spark 连接 mongo的连接器 --> <dependency> &...

2018-10-26 22:40:16

阅读数 1845

评论数 0

MongoDB on SparkSql的读取和写入操作(Python版本)

MongoDB on SparkSql的读取和写入操作(Python版本) 1.1 读取mongodb数据 python方式需要使用pyspark 或者 spark-submit的方式进行提交。 下面pyspark启动的方式: 1.1.1 使用pyspark启动命令行 # 本地安装的spark...

2018-10-26 22:39:31

阅读数 1090

评论数 0

Azkaban3.X 多个executors安装文档

Azkaban3.X 多个executors安装文档 1.编译源码 1.1 克隆源代码 git clone https://github.com/azkaban/azkaban.git 1.2 编译 # 进入azkaban目录 cd azkaban; # 使用gradle编译项目 ./gr...

2018-10-26 22:19:51

阅读数 991

评论数 0

Spring Boot(七)之apidoc生成

Spring Boot(七)之apidoc生成 1.安装apidoc 在安装apidoc之前需要安装node.js,下面介绍下Mac OS安装 1.1 安装node.js 前往 https://nodejs.org/en/ 下载node.js的最新版本,双击.pkg进行安装 一路安装...

2018-08-18 20:51:20

阅读数 2949

评论数 1

Spring Boot(六)之根据环境不同自定义变量

Spring Boot(六)之根据环境不同自定义变量 1.在不同环境下配置自定义的变量 在application-dev.yml中 # 自定义属性 connect: env: dev ip: 127.0.0.1 username: dev password: 1234...

2018-08-18 20:50:36

阅读数 370

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭