2019年11月_王知无(import_bigdata)

转载 UCan技术沙龙|和优秀的你一起解开大数据谜题！

如何让大数据技术在行业中落地实践并发挥作用，一直以来都是各企业和大数据技术人员深思的问题。如果您也想要利用企业的海量数据获得实时洞察，用最短的时间、最低的成本获得最大的企...

2019-11-28 08:00:00 324

转载 Spark SQL读数据库时不支持某些数据类型的问题

在大数据平台中，经常需要做数据的ETL，从传统关系型数据库RDBMS中抽取数据到HDFS中。之前开发数据湖新版本时使用Spark SQL来完成ETL的工作，但是遇到了 S...

2019-11-28 08:00:00 1017

原创 Flink SQL Window源码全解析

文章目录一、概述二、Window分类1、TimeWindow与CountWindow2、TimeWindow子类型Tumble Window（翻转窗口）Hop Window（滑动窗口）Session Window（会话窗口）三、Window分类及整体流程四、创建WindowOperator算子五、WindowOperator处理数据图解六、WindowOperator...

2019-11-26 21:32:30 1062 2

原创 Flink DataStream Join小规模维度数据的简便方法

在编写基于Flink的ETL程序时，我们经常需要用维度数据丰富我们接入的流式数据，如通过商品ID获得商品名称、通过商品分类ID获得分类名称等等。而维度表基本都位于外部存储，换句话说，就是要解决一个无界的流式表与一个有界的码表或半静态表做join操作的问题。一般情况下的首选方案是Flink内置的异步I/O机制，必要时还得配合使用高效的缓存（如Guava提供的LoadingCache）减少对外部数据...

2019-11-26 19:22:42 1238

转载 Flink DataStream维度表Join的简单方案

在编写基于Flink的ETL程序时，我们经常需要用维度数据丰富我们接入的流式数据，如通过商品ID获得商品名称、通过商品分类ID获得分类名称等等。而维度表基本都位于外部存储...

2019-11-25 20:33:30 834

原创 Google布隆过滤器与Redis布隆过滤器详解

一、什么是布隆过滤器？布隆过滤器可以用来判断一个元素是否在一个集合中。它的优势是只需要占用很小的内存空间以及有着高效的查询效率。对于布隆过滤器而言，它的本质是一个位数组：位数组就是数组的每个元素都只占用1bit ，并且每个元素只能是0或者1布隆过滤器除了一个位数组，还有 K 个哈希函数。当一个元素加入布隆过滤器中的时候，会进行如下操作：使用K个哈希函数对元素值进行K次计算，得到K个哈希值...

2019-11-25 20:25:45 787

转载 Google布隆过滤器与Redis布隆过滤器详解

一、什么是布隆过滤器？布隆过滤器可以用来判断一个元素是否在一个集合中。它的优势是只需要占用很小的内存空间以及有着高效的查询效率。对于布隆过滤器而言，它的本质是一个位数组：...

2019-11-24 11:59:25 233

转载 Kafka几个常见的错误

1、UnknownTopicOrPartitionExceptionorg.apache.kafka.common.errors.UnknownTopicOrPartit...

2019-11-24 11:59:25 849

转载消息可靠性、重复消息、消息积压、利用消息实现分布式事务

一、如何确保消息不丢失？1、检测消息丢失的方法可以利用消息队列的有序性来验证是否有消息丢失。在Producer端给每个发出的消息附加一个连续递增的序号，然后在Consum...

2019-11-20 21:40:58 263

转载 Apache Flink的内存管理

JVM：JAVA本身提供了垃圾回收机制来实现内存管理现今的GC（如Java和.NET）使用分代收集（generation collection），依照对象存活时间的长短使...

2019-11-19 00:00:00 253

原创这个面试问题很难么 | 如何处理大数据中的数据倾斜

数据倾斜数据倾斜是我们在处理大数据量问题时绕不过去的问题，也是在面试中几乎必问的考点。正常的数据分布理论上都是倾斜的，就是我们所说的'二八原理'：80%的财富集中在20%的人手中, 80%的用户只使用20%的功能 , 20%的用户贡献了80%的访问量。简单来说数据倾斜就是数据的key 的分化严重不均，造成一部分数据很多，一部分数据很少的局面。表现相信大部分做数据的童鞋们都会遇到数据倾斜，数据...

2019-11-18 21:41:01 1085

原创这个面试问题很难么 | 如何处理大数据中的数据倾斜

数据倾斜数据倾斜是我们在处理大数据量问题时绕不过去的问题，也是在面试中几乎必问的考点。正常的数据分布理论上都是倾斜的，就是我们所说的'二八原理'：80%的财富集中在20...

2019-11-18 00:00:00 282

原创 Spark难点 | Join的实现原理

Join背景当前SparkSQL支持三种join算法：Shuffle Hash Join、Broadcast Hash Join以及Sort Merge Join。其中前两者归根到底都属于Hash Join，只不过载Hash Join之前需要先Shuffle还是先Broadcast。其实，Hash Join算法来自于传统数据库，而Shuffle和Broadcast是大数据在分布式情况下的概念，两...

2019-11-17 12:11:05 1305

原创 Spark难点 | Join的实现原理

Join背景当前SparkSQL支持三种join算法：Shuffle Hash Join、Broadcast Hash Join以及Sort Merge Join。其中前...

2019-11-16 21:36:08 549

转载大数据之Hadoop如何快速入门，想不想知道？

随着人工智能、大数据、AI、云计算、区块链等新技术出现，加速了产业互联网的到来，加速了传统行业产业链快速涌入到互联网的新世界，所以它是未来的大趋势，而大数据是这些基石，万...

2019-11-15 08:00:00 644

转载面试注意点 | Spark&Flink的区别拾遗

By大数据技术与架构场景描述：Flink是标准的实时处理引擎，而且Spark的两个模块Spark Streaming和Structured Streaming都是基于微...

2019-11-14 22:09:04 991

转载你需要懂一点ClickHouse的基础知识

应用场景：1.绝大多数请求都是用于读访问的2.数据需要以大批次（大于1000行）进行更新，而不是单行更新；或者根本没有更新操作3.数据只是添加到数据库，没有必要修改4.读...

2019-11-13 20:07:05 1629

原创阿里巴巴微服务架构演进

阿里巴巴服务化架构演进单一应用架构All In One整个网站几个应用前台 web 后台 ops tasks业务 web service/dao 各自开发一起集成发布技术战：Webx、Spring Ibatis、Jboss、Oracle存在的问题：合并时经常代码冲突、发布相互制约效率低下、应用代码庞大臃肿维护困难。垂直应用架构按应用拆分Service / ...

2019-11-13 19:31:07 1221

原创持续进化 | 阿里巴巴服务化架构演进

作者：朱勇，目前在阿里巴巴从事应用容器和微服务框架的开发、实施以及效率提升相关的工作。阿里巴巴服务化架构演进单一应用架构All In One整个网站几个应用前台 web ...

2019-11-12 23:38:28 585

原创基于Kafka Flink Redis的电商大屏实时计算案例

前言一年一度的双11又要到了，阿里的双11销量大屏可以说是一道特殊的风景线。实时大屏（real-time dashboard）正在被越来越多的企业采用，用来及时呈现关键的数据指标。并且在实际操作中，肯定也不会仅仅计算一两个维度。由于Flink的“真·流式计算”这一特点，它比Spark Streaming要更适合大屏应用。本文从笔者的实际工作经验抽象出简单的模型，并简要叙述计算流程（当然大部分都是源...

2019-11-12 21:56:00 1304

转载那个当年的二本学渣，工作两年，为何跳进大厂

2019年，随着大数据、AI、云计算等新技术的登场，传统互联网技术从业者的职业发展及薪资越发受到限制。新的技术，意味着新的行业、新的机遇，无论你选择哪个方向，不断持续学习...

2019-11-11 08:00:00 1207

转载 Flink1.9整合Kafka实战

本文基于Flink1.9版本简述如何连接Kafka。流式连接器我们知道可以自己来开发Source 和 Sink ，但是一些比较基本的 Source 和 Sink 已经内置...

2019-11-11 08:00:00 496

转载双十一当当图书特价优惠码限量发放 | 5折之后再满200还能减30

11.11当当网计算机图书5折封顶！5折封顶！5折封顶！机械工业出版社华章公司联合当当网特意为【大数据技术与架构】用户申请了一批可与满减叠加使用的“满200减30”的图...

2019-11-10 00:00:00 481

转载 OneData建设探索之路：SaaS收银运营数仓建设

背景随着业务的发展，频繁迭代和跨部门的垂直业务单元变得越来越多。但由于缺乏前期规划，导致后期数仓出现了严重的数据质量问题，这给数据治理工作带来了很大的挑战。在数据仓库建设...

2019-11-10 00:00:00 227

转载后端 | 微服务架构，静态数据通用缓存机制

来源:http://blog.bossma.cn/architecture/microservice-business-static-data-universal-cac...

2019-11-09 13:03:19 232

转载 Apache Flink在小米的发展和应用

来源:小米王加胜作者:ververica整理By大数据技术与架构场景描述：本文由小米的王加胜同学分享，文章介绍了 Apache Flink 在小米的发展，从 Spark...

2019-11-09 13:03:19 271

转载基于Kafka+Flink+Redis的电商大屏实时计算案例

前言一年一度的双11又要到了，阿里的双11销量大屏可以说是一道特殊的风景线。实时大屏（real-time dashboard）正在被越来越多的企业采用，用来及时呈现关键的...

2019-11-07 23:48:40 2948 2

原创阿里云E-MapReduce产品探秘，快速构建可扩展的高性能大数据平台

本文来自夏立的分享，花名雷飙，阿里巴巴计算平台EMR高级产品专家。2014年开始接触大数据，历经阿里内部的大数据发展，目前在阿里云上负责开源的大数据平台EMR产品，构建云上的开源生态。产品介绍阿里云EMR的整体架构如下：管理运维能力集群管理，作业管理和调度操作Web化、SDK&API完全兼容开源系统，并在之基础上强化Hadoop, Spark性能优化监控能力能整合强化...

2019-11-07 22:59:59 1245

转载 Redis选13亿个Key,4个field还是1亿个Key,13亿*4个field？

什么是哈希哈希hash又称为散列、杂凑等，是将任意长度的输入通过散列算法变换为固定长度的输出，最终输出也就是哈希值。这种转换是一种压缩映射。也就是说，散列值的空间通常要远...

2019-11-06 22:29:23 1736

转载千万级别高并发"秒杀"架构设计

每到节假日期间,一二线城市返乡、外出游玩的人们几乎都面临着一个问题：抢火车票!虽然现在大多数情况下都能订到票,但是放票瞬间即无票的场景，相信大家都深有体会。尤其是春节期间...

2019-11-05 00:00:00 857

转载 Spark Checkpoint的运行原理和源码实现

引言Checkpoint 到底是什么和需要用 Checkpoint 解决什么问题：Spark 在生产环境下经常会面临 Transformation 的 RDD 非常多(例如一个Job 中包含1万个RDD) 或者是具体的 Transformation 产生的RDD 本身计算特别复杂和耗时(例如计算时常超过1个小时) , 可能业务比较复杂，此时我们必需考虑对计算结果的持久化。Spark 是擅长多步骤...

2019-11-05 00:00:00 546

原创阿里云E-MapReduce探秘，快速构建可扩展的高性能大数据平台(技术部分)

本文来自夏立的分享，花名雷飙，阿里巴巴计算平台EMR高级产品专家。 2014年开始接触大数据，历经阿里内部的大数据发展，目前在阿里云上负责开源的大数据平台EMR产品，构建...

2019-11-04 00:00:00 357

转载今日头条在消息服务平台和容灾体系建设方面的实践与思考

Photo@http://mrw.so/5r5333本篇文章整理自今日头条的沈辉在 RocketMQ 开发者沙龙中的演讲，主要和大家分享一下，RocketMQ 在微服务...

2019-11-04 00:00:00 189

原创阿里云Spark Shuffle的优化

本次分享者：辰石，来自阿里巴巴计算平台事业部EMR团队技术专家，目前从事大数据存储以及Spark相关方面的工作。Spark Shuffle介绍Smart Shuffle设计性能分析Spark Shuffle流程Spark 0.8及以前 Hash Based ShuffleSpark 0.8.1 为Hash Based Shuffle引入File Consolidation机制Sp...

2019-11-03 14:24:29 459

转载解密 Redis 助力双 11 背后电商秒杀系统

背景秒杀活动是绝大部分电商选择的低价促销、推广品牌的方式。不仅可以给平台带来用户量，还可以提高平台知名度。一个好的秒杀系统，可以提高平台系统的稳定性和公平性，获得更好的用...

2019-11-01 00:00:00 232

微信搜：import_bigdata，大数据领域硬核原创作者

转载 UCan技术沙龙|和优秀的你一起解开大数据谜题！

转载 Spark SQL读数据库时不支持某些数据类型的问题

原创 Flink SQL Window源码全解析

原创 Flink DataStream Join小规模维度数据的简便方法

转载 Flink DataStream维度表Join的简单方案

原创 Google布隆过滤器与Redis布隆过滤器详解

转载 Google布隆过滤器与Redis布隆过滤器详解

转载 Kafka几个常见的错误

转载消息可靠性、重复消息、消息积压、利用消息实现分布式事务

转载 Apache Flink的内存管理

原创这个面试问题很难么 | 如何处理大数据中的数据倾斜

原创这个面试问题很难么 | 如何处理大数据中的数据倾斜

原创 Spark难点 | Join的实现原理

原创 Spark难点 | Join的实现原理

转载大数据之Hadoop如何快速入门，想不想知道？

转载面试注意点 | Spark&Flink的区别拾遗

转载你需要懂一点ClickHouse的基础知识

原创阿里巴巴微服务架构演进

原创持续进化 | 阿里巴巴服务化架构演进

原创基于Kafka Flink Redis的电商大屏实时计算案例

转载那个当年的二本学渣，工作两年，为何跳进大厂

转载 Flink1.9整合Kafka实战

转载双十一当当图书特价优惠码限量发放 | 5折之后再满200还能减30

转载 OneData建设探索之路：SaaS收银运营数仓建设

转载后端 | 微服务架构，静态数据通用缓存机制

转载 Apache Flink在小米的发展和应用

转载基于Kafka+Flink+Redis的电商大屏实时计算案例

原创阿里云E-MapReduce产品探秘，快速构建可扩展的高性能大数据平台

转载 Redis选13亿个Key,4个field还是1亿个Key,13亿*4个field？

转载千万级别高并发"秒杀"架构设计

转载 Spark Checkpoint的运行原理和源码实现

原创阿里云E-MapReduce探秘，快速构建可扩展的高性能大数据平台(技术部分)

转载今日头条在消息服务平台和容灾体系建设方面的实践与思考

原创阿里云Spark Shuffle的优化

转载解密 Redis 助力双 11 背后电商秒杀系统

大数据面试大总结300页.zip

空空如也