示说网大数据分享专栏
大数据内容分享:从最基础的到最新的业内动态,Apache Spark\HBase\Alluxio\Flink\Hadoop
青色的海牛
一个面向研发人员与工程师的交流平台
展开
-
【活动】Apache Pulsar上海技术交流
为了让更多开发者接触和了解Pulsar,Streamlio联合智联招聘、示说网,把Apache Pulsar Meetup从硅谷带到了上海。在此之前,小编也推过很多关于Apache Pulsar的ppt,大家可以点击订阅号精彩内容菜单,再次深入了解Pulsar。 活动详情 本次 Apache Pulsar 线下活动技术交流群,扫码关注获取交流群信息! ...原创 2018-12-04 18:24:54 · 197 阅读 · 0 评论 -
Spark 原理与实践
Spark 系统是分布式批处理系统和分析挖掘引擎 ; AMP LAB 贡献到 Apache 社区的开源项目,是 AMP 大数据栈的基础组件;做什么 数据处理( Data Processing ):可以用来快速处理数据,兼具容错性和可扩展性。迭代计算( Iterative Computation ):支持迭代计算,有效应对多步的数据处理逻辑。 数据挖掘 ( Data Mining ):在海量数据基础...原创 2018-11-21 11:46:10 · 554 阅读 · 0 评论 -
JuiceFS:打造下一代云原生大数据存储系统
传统的云原生(Cloud Native)大数据处理,,从数据的一致性到元数据的管理,面临着各种性能和编程上挑战。HDFS虽然有着不错的性能,和扩展性,但是在使用成本和运维成本上也面临诸多顾虑。JuiceFS是下一代的基于云原生的分布式文件系统,利用OSS/S3/HDFS等公有云存储,在元数据管理上做到弹性管理,极大提升了云原生应用的数据处理效率,支持Spark/Impala/TensorFlow/...原创 2018-11-21 11:28:19 · 2358 阅读 · 0 评论 -
Alluxio原理和应用场景随笔
上周末有幸参加了Alluxio(之前也叫Tachyon),七牛云和示说网举办的Alluxio上海Meetup,之前我并没有在真实应用场景中使用过Alluxio,对其适用的应用场景一直报怀疑态度。自信聆听其创始人的演讲之后,感觉这个项目还挺有意思,对Alluxio简单总结一下: DAL(数据访问层) Alluxio DAL Alluxio提供了各种文件访问API,包括兼容HDFS的API,Allu...原创 2018-11-12 18:41:30 · 829 阅读 · 0 评论 -
Apache Spark on K8s的安全性和性能优化
前言 Apache Spark是目前最为流行的大数据计算框架,与Hadoop相比,它是替换MapReduce组件的不二选择,越来越多的企业正在从传统的MapReduce作业调度迁移到Spark上来,Spark的生态圈支持者越来越多,当然它出众的内部API设计,让它也非常容易和现有既成事实的Hadoop组件(YARN/HDFS)集成。 容器技术的兴起,各种分布式的容器编排技术也应运而生,其中的佼佼者...原创 2018-11-12 18:35:44 · 193 阅读 · 0 评论 -
eBay大规模数仓优化
在eBay,我们每天需要处理超过60PB的数据,在使用Spark进行数据处理的时候,我们遇见了不少性能问题,解决这些问题通常需要大量的人工配置来干预或者优化,极大了增加了工作量;因此我们引入了Adaptive Execution(Dynamically Optimize execution) 和Indexed Bucket(Optimize Data Layout),以及一系列小的性能优化,本文讲...原创 2018-11-20 11:28:40 · 174 阅读 · 0 评论 -
SparkSQL & Scala
Spark SQL重度依赖Scala的语言特性,让SQL编译程序变得简单直接,特别是Spark SQL其核心代码库Tree结构,作者用直接明了的展示了代码,如何完成语法树的操作和变化,包括基于规则的性能优化等,把Scala语言的特性发挥淋漓极致,是学习Spark SQL内核代码的必备教材。 精力有限,展示部分 篇幅过长,原文浏览https://www.slidestal...原创 2018-10-17 10:40:22 · 902 阅读 · 0 评论 -
加州大学伯克利分校:MapReduce Spark
加州大学伯克利分校的教授,从历史发展的角度,讲述了在超级计算机中如何编程,从而引出风行几十年的MPI编程框架,然后这个框架编程过于复杂,进而演化出了MapReduce模型,这个模型的第一个开源实践版本是Hadoop,Hadoop风光了近10年以后,其中的计算引擎MapReduce被Apache Spark所取代,Spark在MapReduce(BSP)模型基础之上,有增加了很多其它编程模式,比如S...原创 2018-10-17 10:58:16 · 444 阅读 · 0 评论 -
Spark源码性能优化案例分析
本篇文章枚举了几例常见的问题并给出了优化方案,推荐了两套测试性能优化工具 问题: Spark 任务文件初始化调优 资源分析,发现第一个 stage 时间特别长,耗时长达 14s , CPU 和网络通信都有一定开销,不符合应用代码逻辑。 Spark 任务调度优化 资源分析,发现 stage2 只有一台服务器上的 CPU 被使用,其他服务器 CPU 完全空闲 任务分配算法调优 在做 log 分析的时...原创 2018-10-25 11:00:39 · 225 阅读 · 0 评论 -
滴滴 张晓杰 - 滴滴基于大数据的用户问题定位建设与实践
在互联网行业,有用户的地方就有用户问题,定位解决用户问题是提升用户体验的必经之路,滴滴也不例外。其中解答司机听单量少和乘客发出的订单无司机应答这类典型问题,成为提升平台满意度的日常。随着滴滴业务的发展,订单量在不断增加,平台吸引的司机也越来越多,同时产品的丰富度和策略的复杂度也逐渐提高,这给问题定位带来了越来越多的困难。本次演讲围绕问题定位这一话题,结合大数据的能力(存储、查询、trace等),介...原创 2018-10-25 11:13:09 · 265 阅读 · 0 评论 -
Alluxio在携程大数据平台的实践
离线和实时在携程大数据中都占据重要地位,为了解决资源竞争带来的问题,我们将部分实时作业单独建立集群,同时带来了新的问题,跨集群读写数据.同时,部分作业需要准时实时的离线查询,这给当前的框架带来挑战.本次分享介绍了如何引入Alluxio来解决这些问题进行了探讨,并分享碰到的一些问题和踩过的坑. 原文https://www.slidestalk.com/s/Alluxio_...原创 2018-10-30 11:36:53 · 246 阅读 · 0 评论 -
用Alluxio加速云上大数据分析以及持久化内存带来的新机会
基于云的大数据分析因其低成本和灵活部署等特性已经变得越来越火,但其性能还是跟本地部署的集群存在差距。本次分享会介绍不同的负载(Terasort, TPC-DS, Machine Learning)在S3和在本地部署中的性能差异和分析,以及使用Alluxio时对这些负载的加速效果。持久化内存这种介质的出现,在存储界打开了了一个新世界,本次分享也会探讨Alluxio在使用持久化内存时的新机会。 ...原创 2018-10-30 11:54:50 · 175 阅读 · 0 评论 -
Alluxio 在京东Ad Hoc平台的应用--对JDPresto的加速
京东adhoc平台自2017年开始使用alluxio,目前已部署超过500个物理节点,每天加载超过70T的数据,alluxio为adhoc平台部分Presto应用带来了10X的性能提升和稳定的亚秒级查询体验;基于alluxio实现独立的shuffle service服务,根据任务级别和任务类型(Spark,MR)决定shuffle数据存储等级(RAM,SSD,HDD) 张芒,京东大数据平台计算引擎...原创 2018-10-31 19:48:53 · 615 阅读 · 0 评论 -
大数据与数据挖掘
本篇讲述了当今大数据框架的生态系统,基础编程模式,以及相关组件的基本原理,信息量比较大,比较适合入门者引导课程。 原文https://www.slidestalk.com/s/Big_Data_Mining ...原创 2018-11-01 14:26:28 · 329 阅读 · 0 评论 -
Alluxio文件系统在搜狗的实践Alluxio内存文件系统在搜狗的实践
本次分享主要包括了Spark shuffle 基于Alluxio的优化,以及基于Alluxio对于临时表的性能改进:1.在搜狗大量的数据分析, 知识图谱的数据制作使用Spark/SparkSQL来进行并行计算,大部分由于Spark On Yarn存在各类问题导致业务SLA水平仅为96%,结合Alluxio内存文件系统,我们将Spark业务的稳定性水平SLA提升到99.22%,广泛应用于数据分析以及...原创 2018-10-31 19:53:06 · 299 阅读 · 0 评论 -
从AliHbase到Lindorm,阿里大规模存储产品演进
此篇来自全球互联网架构大会(GIAC)的分享— — 栾小凡-从AliHbase到Lindorm,阿里大规模存储产品演进 简单介绍一下作者 栾小凡 花名:轶俗 专注于数据库存储领域,曾就职于Oracle,HEDVIG,研发过Cassandra,AliHBase等多款开源大数据数据库产品 目前负责阿里巴巴新一代大规模高吞吐NoSQL数据库Lindorm的研发工作 过去 10 年,随着互联网技术的快速...原创 2018-12-11 17:19:43 · 5166 阅读 · 0 评论