- 博客(3)
- 资源 (1)
- 收藏
- 关注
原创 《从0到1学习Spark》--DataFrame和Dataset探秘
昨天小强带着大家了解了Spark SQL的由来、Spark SQL的架构和SparkSQL四大组件:Spark SQL、DataSource Api、DataFrame Api和Dataset Api。今天小强和大家一起揭开Spark SQL背后DataFrame和Dataset的面纱。DataFrame和Dataset演变Spark要对闭包进行计算、将其序列化,并将她们发送到执行进程,这意味...
2019-01-30 16:41:05 148
原创 《从0到1学习Spark》-- 初识Spark SQL
Spark SQL是整个Spark生态系统中最常用的组件今天小强给大家介绍Spark SQL,小强的平时的开发中会经常使用Spark SQL进行数据分析查询操作,Spark SQL是整个Spark生态系统中最常用的组件。这也是为什么很多大公司使用Spark SQL作为大数据分析的关键组件之一。为什么引入Spark SQL在Spark的早起版本,为了解决Hive查询在性能方面遇到的挑战,在...
2019-01-26 13:19:02 443
原创 ClickHouse大数据实时分析领域的黑马
大数据实时分析领域的黑马是ClickHouse,一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)。clickhouse背景俄罗斯的“百度”叫做Yandex,覆盖了俄语搜索超过68%的市场,有俄语的地方就有Yandex;有中文的地方,就有百度么?好像不一定 : )Yandex在2016年6月15日开源了一个数据分析的数据库,名字叫做ClickHouse,这对保守俄罗斯人来说是个特大...
2019-01-03 18:09:59 11606 4
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人