大数据
皮皮鲁同学
这个作者很懒,什么都没留下…
展开
-
隐私、资本泡沫成焦点,大数据和AI从业者应该了解的2020六大趋势
包括阿里巴巴达摩院在内的全球顶级科研机构纷纷对2020年的科技行业做出了预测,过去的一年,大数据和AI行业继续蓬勃发展:硬件层面:各种专用芯片开始提供算力支持,5G带来更多潜在应用。软件层面:各巨头公司布局计算框架、云服务,为开发者提供更简单易用的基础服务。技术之外:隐私问题和资本泡沫开始引起广泛重视。个人数据隐私进一步得到保护一直以来,中国人对个人的数据隐私并不敏感,但随着一些隐私...原创 2020-01-09 14:43:41 · 475 阅读 · 0 评论 -
Flink基础教程:时间语义、Event Time和Watermark机制原理与实践
在流处理中,时间是一个非常核心的概念,是整个系统的基石。比如,我们经常会遇到这样的需求:给定一个时间窗口,比如一个小时,统计时间窗口的内数据指标。那如何界定哪些数据将进入这个窗口呢?在窗口的定义之前,首先需要确定一个应用使用什么样的时间语义。本文将介绍Flink的Event Time、Processing Time和Ingestion Time三种时间语义,接着会详细介绍Event Time和W...原创 2020-01-06 11:19:05 · 1448 阅读 · 0 评论 -
Flink进阶教程:数据类型和序列化机制简介
几乎所有的大数据框架都要面临分布式计算、数据传输和持久化问题。数据传输过程前后要进行数据的序列化和反序列化:序列化就是将一个内存对象转换成二进制串,形成网络传输或者持久化的数据流。反序列化将二进制串转换为内存对象,这样就可以直接在编程语言中读写和操作这个对象。一种最简单的序列化方法就是将复杂数据结构转化成JSON格式。序列化和反序列化是很多大数据框架必须考虑的问题,在Java和大数据生态圈中,已有...原创 2019-12-30 11:30:14 · 1428 阅读 · 0 评论 -
Flink零基础教程:并行度和数据重分布
Flink的Transformation转换主要包括四种:单数据流基本转换、基于Key的分组转换、多数据流转换和数据重分布转换。读者可以使用Flink Scala Shell或者Intellij Idea来进行练习:Flink Scala Shell使用教程Intellij Idea开发环境搭建教程Flink单数据流基本转换:map、filter、flatMapFlink基...原创 2019-12-27 10:35:50 · 1221 阅读 · 1 评论 -
Flink算子使用方法及实例演示:union和connect
Flink的Transformation转换主要包括四种:单数据流基本转换、基于Key的分组转换、多数据流转换和数据重分布转换。读者可以使用Flink Scala Shell或者Intellij Idea来进行练习:Flink Scala Shell使用教程Intellij Idea开发环境搭建教程Flink单数据流基本转换:map、filter、flatMapFlink基于Key的分组...原创 2019-12-25 23:10:23 · 2177 阅读 · 0 评论 -
Flink算子使用方法及实例演示:keyBy、reduce和aggregations
Flink的Transformation转换主要包括四种:单数据流基本转换、基于Key的分组转换、多数据流转换和数据重分布转换。本文主要介绍基于Key的分组转换,关于时间和窗口将在后续文章中介绍。读者可以使用Flink Scala Shell或者Intellij Idea来进行练习:Flink Scala Shell使用教程Intellij Idea开发环境搭建教程Flink单数...原创 2019-12-23 18:54:35 · 2594 阅读 · 0 评论 -
Hadoop Spark Kylin...你知道大数据框架名字背后的故事吗?
对软件命名并不是一件容易的事情,名字要朗朗上口,易于记忆,既不能天马行空,又要代表软件本身的功能和创新。本文将历数几款大数据框架及其创始背后的故事。Hadoop:最具童心2004年,Apache Hadoop(以下简称Hadoop)的创始人Doug Cutting和Mike Cafarella受MapReduce编程模型和Google File System等论文的启发,对论文中提及的思想进行...原创 2019-12-22 10:26:42 · 455 阅读 · 0 评论 -
Flink零基础学习教程:map、filter和flatMap算子实例详解
本文将对Flink Transformation中各算子进行详细介绍,并使用大量例子展示具体使用方法。Transformation各算子可以对Flink数据流进行处理和转化,是Flink流处理非常核心的API。如之前文章所述,多个Transformation算子共同组成一个数据流图。[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-UDnkbPZD-157655402...原创 2019-12-17 11:41:37 · 3425 阅读 · 0 评论 -
Flink零基础实战教程:股票价格数据流实时处理
之前的文章《10行Flink WordCount程序背后的万字深度解析,读懂Flink原理和架构》使用WordCount展示了Flink程序的基本结构,本文将以股票价格来演示如何使用Flink的DataStream API。通过本文,你可以学到:定义相关数据结构。Flink流处理程序的骨架。Flink的执行环境概念。自定义Source、设置时间戳和Watermark。数据结构Fli...原创 2019-12-12 10:33:10 · 2394 阅读 · 1 评论 -
Kafka能做什么?十分钟构建你的实时数据流管道
本文将对Kafka做一个入门简介,并展示如何使用Kafka构建一个文本数据流管道,通过本文,读者可以了解一个流处理数据管道(Pipeline)的大致结构:数据生产者源源不断地生成数据流,数据流通过消息队列投递,数据消费者异步地对数据流进行处理。Kafka简介2010年,LinkedIn开始了其内部流数据处理平台的开发,2011年将该系统捐献给了Apache基金会,取名Apache Kafka(...原创 2019-12-08 07:01:28 · 794 阅读 · 0 评论 -
批处理衰落,流处理兴起,大数据处理平台从Lambda到Kappa的演进
流处理引擎经历了从Storm到Spark Streaming再到Flink的三代的技术迭代,大数据处理也随之经历了从Lambda架构到Kappa架构的演进。本节以电商平台的数据分析为例,来解释大数据处理平台如何支持企业在线服务。电商平台会将用户在APP或网页的搜索、点击和购买行为以日志的形式记录下来,用户的各类行为形成了一个实时数据流,我们称之为用户行为日志。Lambda架构当以Storm为...原创 2019-12-04 11:28:14 · 729 阅读 · 0 评论 -
从Hadoop到Spark、Flink,大数据处理框架十年激荡发展史!
当前这个数据时代,各领域各业务场景时时刻刻都有大量的数据产生,如何理解大数据,对这些数据进行有效的处理成为很多企业和研究机构所面临的问题。本文将从大数据的基础特性开始,进而解释分而治之的处理思想,最后介绍一些流行的大数据技术和组件,读者能够通过本文了解大数据的概念、处理方法和流行技术。什么是大数据?大数据,顾名思义,就是拥有庞大体量的数据。关于什么是大数据,如何定义大数据,如何使用大数据等一...原创 2019-11-29 14:07:13 · 1274 阅读 · 0 评论 -
Flink Scala Shell:使用交互式编程环境学习和调试Flink
交互式编程环境:REPL当前最著名的交互式编程环境莫属Jupyter Notebook了,程序员可以启动一个交互的Session,在这Session中编写代码、执行程序、获取结果,所见即所得。交互式编程的优势包括:快速启动一个程序:程序员不需要“编译、打包、执行”这一套复杂过程,只需要开启一个交互Session,敲下代码,直接得到结果,非常适合验证一段代码的结果。直接获得程序反馈:使用p...原创 2019-11-22 09:44:16 · 631 阅读 · 0 评论 -
深入浅出:10行Flink WordCount程序背后的万字深度解析,读懂Flink原理和架构
要想熟练掌握一个大数据框架,仅仅是学习一些网络上的样例程序是远远不够的,我们必须系统地了解它背后的设计和运行原理。本文将以WordCount的案例为主线,主要介绍Flink的设计和运行原理。关于Flink WordCount程序可以参考我之前的文章:十分钟搭建第一个Flink程序。原创不易,转载请注明出处。对大数据和机器学习感兴趣的朋友可以加我的微信 aistevelu,相互交流学习。本文内容...原创 2019-11-15 18:17:39 · 1822 阅读 · 0 评论