无尴尬不青春-CSDN博客

原创 flink sql实战案例之商品销量实时统计

更多最新文章请文末扫码关注公众号查看1、案例背景介绍互联网电商往往需要对订单商品销量实时统计，用于实时大屏展示，库存销量监控等等。本文主要介绍如何通过flink sql的方式进行商品实时销量的统计。业务流程介绍：1.使用otter采集业务库binlog数据输出到kafka2.flink读取kafka数据进行商品销量统计3.统计结果输出到mysql4.下游业务系统直...

2020-04-02 15:19:03 3997

原创 flink写入HDFS中文乱码

客户端埋点日志进行解析时需要获取地区编码和名称，程序是通过flink分布式缓存将地区编码和名称数据传到每个task节点进行读取。本地测试时没有问题，但是部署到集群数据写入hdfs后发现中文乱码，代码如下：//设置分布式缓存文件地址 StreamExecutionEnvironment bsEnv = StreamExecutionEnvironment.getExecutionEnv...

2020-03-25 15:43:46 2299 1

原创 Flink最全知识图谱，思维导图，看完才算搞懂flink

该图谱由 Apache Flink Committer 执笔，四位 PMC 成员审核，将 Flink 9 大技术版块详细拆分，突出重点内容并搭配全面的学习素材。看完这份图谱，才算真的搞懂 Flink！如何获取？关注「大数据极客」微信公众号，后台回复关键字“图谱”即可下载 PDF 版本，内含大量补充链接，一键点击即可查看相关素材！...

2020-03-09 17:15:03 2990

原创《维度模型系列》-3事实表核心技术（下）

目录1引言2父子型事实表3退化维4代理键5一致性事实6事实表设计方法更多技术文章请关注公众号：1引言上篇文章中我们主要介绍了事实类型（可加性、半可加性，不可加性），粒度，事实表三种类型主要内容，这篇文章我们继续介绍事实表其他相关内容：父子型事实表退化维代理键一致性事实事实表设计方法2父子型事实表父子数据关系是业务领域常见...

2020-03-08 11:04:20 948 1

原创《维度模型系列》-3事实表核心技术（上）

目录1引言2事实类型3粒度4事实表三种类型4.1事务事实表4.2周期快照事实表4.3累积快照事实表5总结更多技术文章请关注公众号：1引言维度建模的事实表是围绕业务过程来设计的，其包含了业务过程的度量和引用的维度。下面我们将从以下事实表相关内容来对事实表相关技术有一个全面的介绍：事实类型：可加性、半可加性，不可加性粒度事实表三...

2020-03-08 10:54:32 680

原创《维度模型系列》-2数据仓库总线架构

更多技术文章请关注公众号：背景对数据仓库的构建进行规划是一项及其重要的活动。一开始是面向整个企业建立一个集中式的数据仓库还是为每个业务部门建立独立的数据集市？建立集中式大型数据仓库的方法需要很长一段时间的开发工作才能体现出其业务价值，这对于快速满足业务需求来说显然是无法容忍的，尤其是对于快速变化的互联网行业来说。而尽管建立独立的部门数据集市见效很快，但是由于这种方法不断增加数据烟筒...

2020-03-08 10:35:05 1047

原创《维度模型系列》-1初识维度模型

目录前言什么是维度建模维度建模的好处未来内容更多技术文章请关注公众号：前言数据模型就是数据的组织和存储方法，它强调从业务，数据存取，和使用角度合理的存储数据。模型设计是数据仓库的必备技能和主要工作之一。模型设计的好坏直接影响数仓整体的性能，存储成本，使用效率，数据质量等等。数仓典型的模型方法论有以下几种：ER模型，维度模型，Data Vault模型，Anch...

2020-03-08 10:24:51 1590

1概述表的基础信息维护展示是数据仓库元数据管理的主要内容之一，对于hive来说如表名，表注释，内外表类型，列的字段名、字段类型、字段备注、是否是分区字段，存储文件类型，压缩格式等信息，这些都是在建表时就可以获取的。还有一些和表中数据存储相关的信息，比如行数，文件数，压缩前后存储大小等信息是随着ETL数据变化而变化的，我们希望在ETL结束后能够获取这些最新信息到我们元数据管理系统中。庆幸的是hi...

2020-03-06 23:03:55 5137

原创基于hive的bulkload实践

1背景工作中遇到需要将hive中数据同步到hbase的需求，之前是通过建设hive映射hbase表的方式，直接通过insert into table select * from table的方式写入的，刚开始的时候同步的表和业务数据量都比较小，数据同步速度可以接受。随着业务发展同步的表和数据量逐渐增多，同步一张表的时间越来越长。这种写入方式底层其实是调用hbase的put接口写入，大量数据写入...

2020-03-06 22:53:30 1011

原创 hive集成Elasticserch

hive映射elasticserch的实践与优化，问题总结

2020-03-06 22:42:18 624

原创 mongo to hive的实践与优化

一、前言数据抽取是数据仓库ETL开发的重要环节，对于异构数据源的同步有多种工具，也会遇到各种问题。本文主要总结作者工作中同步mongo数据到hive的方式和经验。二、mongo to hive方式选择mongo同步数据到hive有多种方式，下面介绍几种常用的方式1、通过datax官网介绍：datax的MongoDBReader 插件利用 MongoDB 的java客户端M...

2020-03-06 22:24:17 2352 1

翻译 StructuredStreaming官方文档翻译

structured streaming是一种基于Spark SQL引擎构建的可扩展且容错的流处理引擎。您可以以静态数据表示批量计算的方式来表达流式计算。 Spark SQL引擎将随着流式传输数据持续到达而逐渐持续运行，并更新最终结果。

2017-06-28 14:50:31 1711

转载 Hbase连接池HTablePool为何弃用

本文章转载他人，文中HConnection类和HConnectionManager在新版hbase已经弃用，换成了Connection和ConnectionFactory，但是HTablePool弃用原理一样。-----------------分割线------------------------------------------------------------原文链

2017-01-12 10:49:29 6673

原创 Hbase新旧查询过程详解

1基础介绍在HBase中，大部分的操作都是在RegionServer完成的，Client端想要插入，删除，查询数据都需要先找到相应的 RegionServer。0.96版本之前hbase内置两张表'.META.'，'-ROOT-'，这两张表存储Region的分布情况以及每个Region的详细信息，'-ROOT-'表记录'.META.'表的redion分布信息，'.META.'表记录用

2017-01-10 11:05:12 1848

转载 Hbase新旧api对比

HBase1.0.1.1 API与原来有所不同 1 package com.felix.hbaseapi_test; 2 3 /* 这是旧版的 API操作 */16 public class hbaseapifelix {17 18 public static final String TABLE_NAME = "t

2017-01-06 17:53:33 2034

转载 MySQL数据库优化的八种方式(经典必看)

引言：　　关于数据库优化，网上有不少资料和方法，但是不少质量参差不齐，有些总结的不够到位，内容冗杂。　　偶尔发现了这篇文章，总结得很经典，文章流量也很大，所以拿到自己的总结文集中，积累优质文章，提升个人能力，希望对大家今后开发中也有帮助1、选取最适用的字段属性　　MySQL可以很好的支持大数据量的存取，但是一般说来，数据库中的表越小，在它上面执行的查询也就会越快。因此，在创建表

2016-12-22 09:55:47 411

转载 Kafka深度解析

本文转发自Jason’s Blog，原文链接　http://www.jasongj.com/2015/01/02/Kafka深度解析背景介绍Kafka简介　　Kafka是一种分布式的，基于发布/订阅的消息系统。主要设计目标如下：以时间复杂度为O(1)的方式提供消息持久化能力，即使对TB级以上数据也能保证常数时间的访问性能高吞吐率。即使在非常廉价的商用机器上也能做到单

2016-09-29 17:14:32 577

原创 SparkSQL的registerTempTable方法时出现错误MissingRequirementError

1、运行rddpeople.registerTempTable("rddTable")时报错错误信息：Exception in thread "main" scala.reflect.internal.MissingRequirementError: class org.apache.spark.sql.catalyst.ScalaReflection in JavaMirror with

2016-09-27 11:01:57 1673

转载 Spark 核心 RDD 剖析（下）

上文Spark 核心 RDD 剖析（上）介绍了 RDD 两个重要要素：partition 和 partitioner。这篇文章将介绍剩余的部分，即 compute func、dependency、preferedLocationcompute func在前一篇文章中提到，当调用 RDD#iterator 方法无法从缓存或 checkpoint 中获取指定 partition 的迭代器时，就

2016-09-21 14:11:48 645

转载 Spark 核心 RDD 剖析（上）

本文将通过描述 Spark RDD 的五大核心要素来描述 RDD，若希望更全面了解 RDD 的知识，请移步 RDD 论文：RDD：基于内存的集群计算容错抽象Spark 的五大核心要素包括：partitionpartitionercompute funcdependencypreferredLocation下面一一来介绍(一): partitionpartition 个数怎么

2016-09-21 14:07:28 1365

原创 Spark提交应用（Submitting Applications）

提交应用(Submitting Applications)用spark的bin目录下的spark-submit脚本在集群上启动应用。它可以通过统一的接口来管理spark所支持的cluster managers，所以不需要为每一个应用做特殊的配置。打包程序(Bundling Your Application’s Dependencies)如果你的代码依赖于其他项目,需要将应用程序打包才能在集群上分发代

2016-09-19 16:27:06 2588

songjifei的专栏