Waterdrop推动Spark Structured Streaming走向生产环境

前言 StructuredStreaming是Spark 2.0以后新开放的一个模块,相比SparkStreaming,它有一些比较突出的优点: 它能做到更低的延迟; 可以做实时的聚合,例如实时计算每天每个商品的销售总额; 可以做流与流之间的关联,例如计算广告的点击率,需要将广告的曝光记录和点击...

2019-04-16 08:59:25

阅读数 41

评论数 0

ElasticSearch pinyin分词支持多音字

ElasticSearch pinyin分词支持多音字 背景 我们有一个搜索业务底层采用ElasticSearch作为搜索引擎,在索引的过程中,使用了ik中文分词、拼音分词、同义词等多种分词器。ES和各种插件的组合已经能满足我们线上90%的需求,但是仍有部分需求无法覆盖,我们在拼音分词的时候过程中...

2019-03-28 19:29:06

阅读数 72

评论数 0

优秀的数据工程师,怎么用Spark在TiDB上做OLAP分析

优秀的数据工程师,怎么用Spark在TiDB上做OLAP分析 TiDB 是一款定位于在线事务处理/在线分析处理的融合型数据库产品,实现了一键水平伸缩,强一致性的多副本数据安全,分布式事务,实时 OLAP 等重要特性。 TiSpark 是 PingCAP 为解决用户复杂 OLAP 需求而推出的产品...

2019-02-18 22:25:25

阅读数 124

评论数 0

如何使用Spark快速将数据写入Elasticsearch

如何使用Spark快速将数据写入Elasticsearch 说到数据写入Elasticsearch,最先想到的肯定是Logstash。Logstash因为其简单上手、可扩展、可伸缩等优点被广大用户接受。但是尺有所短,寸有所长,Logstash肯定也有它无法适用的应用场景,比如: 海量数据ETL ...

2018-12-11 23:57:23

阅读数 3350

评论数 0

如何快速地将Hive中的数据导入ClickHouse

如何快速地将Hive中的数据导入ClickHouse ClickHouse是面向OLAP的分布式列式DBMS。我们部门目前已经把所有数据分析相关的日志数据存储至ClickHouse这个优秀的数据仓库之中,当前日数据量达到了300亿。 在之前的文章如何快速地把HDFS中的数据导入ClickHous...

2018-11-28 23:17:21

阅读数 4737

评论数 0

如何快速地把HDFS中的数据导入ClickHouse

如何快速地把HDFS中的数据导入ClickHouse ClickHouse是面向OLAP的分布式列式DBMS。我们部门目前已经把所有数据分析相关的日志数据存储至ClickHouse这个优秀的数据仓库之中,当前日数据量达到了300亿。 之前介绍的有关数据处理入库的经验都是基于实时数据流,数据存储在...

2018-11-07 17:12:07

阅读数 7145

评论数 3

Waterdrop帮你快速玩转Spark数据处理

Waterdrop帮你快速玩转Spark数据处理 屠龙宝刀,宝刀屠龙,踏遍天下,谁敢不从,倚天不出,谁与争锋! Databricks 开源的 Apache Spark 对于分布式数据处理来说是一个伟大的进步。我们在使用 Spark 时发现了很多可圈可点之处,我们在此与大家分享一下我...

2018-02-28 09:37:06

阅读数 5007

评论数 0

怎么在MacOS上使用sbt发布代码到Maven中央仓库

怎么在MacOS上使用sbt发布代码到Maven中央仓库 在项目中集成sonatype 这一部分不是本篇文章的重点,在项目集成sonatype可参照https://github.com/xerial/sbt-sonatype配置 上传代码 1. 安装gpg并生成密钥 brew install g...

2019-01-29 15:09:49

阅读数 142

评论数 0

Gitlab CI集成工具的应用

Gitlab CI集成工具的应用 什么是Gitlab CI工具 Continuous Integration is a software development practice in which you build and test software every time a develop...

2019-01-10 15:38:30

阅读数 89

评论数 0

Dataset 使用填坑记录

Dataset 使用填坑记录 Dataset被誉为懒人数据库(databases for lazy people),是Python操作MySQL的库。因为其简单的操作,避开了繁琐的依赖安装和链接建立,能够很快的和数据库进行交互。但是在使用过程中,遇到了不少的坑,这篇文章旨在记录使用过程中遇到的坑,...

2018-11-12 19:20:31

阅读数 106

评论数 0

[Leetcode-228]Python-Summary-Ranges-滑动窗口

Overview 给定一个无重复元素的有序整数数组,返回数组区间范围的汇总。。 示例 1: 输入: [0,1,2,4,5,7] 输出: ["0->2","4->5",&am...

2018-08-14 21:51:39

阅读数 137

评论数 0

Elasticsearch Rolling up historical data Overview

Elasticsearch Rolling up historical data Overview And while we continue to believe that most data tends to have value over a long period of ti...

2018-08-08 11:14:29

阅读数 159

评论数 0

[Leetcode-66]Python-Plus One-三行代码

Overview 给定一个非负整数组成的非空数组,在该数的基础上加一,返回一个新的数组。 最高位数字存放在数组的首位, 数组中每个元素只存储一个数字。 你可以假设除了整数 0 之外,这个整数不会以零开头。 示例 1: 输入: [1,2,3] 输出: [1,2,4] 解释: 输入数组表...

2018-08-04 21:45:39

阅读数 127

评论数 0

Python List VS Set

Python List VS Set Overview Sets are significantly faster (almost O(1)) when it comes to determining if an object is present in the set (as in x ...

2018-08-03 21:35:39

阅读数 77

评论数 0

Elasticsearch 6.3 X-PACK SQL Overview

Elasticsearch 6.3 X-PACK SQL Overview Elasticsearch SQL aims to provide a powerful yet lightweight SQL interface to Elasticsearch 写在前面 Ho...

2018-08-02 17:33:46

阅读数 1260

评论数 0

Flume 1.8.0读取Kafka写HDFS

Flume 1.8.0读取Kafka写HDFS 环境准备 java version “1.8.0_45” Hadoop 2.6.0-cdh5.5.1 安装Flume wget http://mirrors.tuna.tsinghua.edu.cn/apache/flume/...

2018-07-25 16:14:24

阅读数 552

评论数 0

Python中List遍历的若干种方法

List 遍历的4种方法: 方法1: for i in list: print i 方法2: for i in range(len(list)): print i, list[i] 方法3: for i in xrange(len(list)): p...

2018-07-20 14:18:59

阅读数 5766

评论数 0

记一次由于__consumer_offset导致的Kafka故障

记一次Kafka故障 2018.05.30 Kafka 0.10.0.10 背景介绍 因Kafka集群中一个节点宕机,因集群高可用机制集群工作正常,但是发现部分消费者无法读取到数据 故障原因 Kafka将直连Kafka的消费信息记录到了__consumer_of...

2018-05-30 15:38:46

阅读数 2447

评论数 0

ClickHouse JDBC插入性能测试(基于Hangout)

ClickHouse Format Performance TEST of JDBC 前言 Hangout-output-Clickhouse目前支持3种形式的数据插入,Values、JSONEachRow以及TabSeparated。这三种方式最终插入SQL如下 Values ...

2018-03-21 11:33:52

阅读数 9718

评论数 0

Zookeeper一次故障处理

记录一次线上Zookeeper故障 2018.02.06 部门引入了ClickHouse作为数据分析仓库,并且使用了复制表ReplicatedMergeTree,两个集群复制表的数据同步依赖Zookeeper,上线前就对Zookeeper的性能产生过顾虑,但是线上运行一段时间后,未...

2018-02-08 12:09:40

阅读数 2227

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭