大数据
青色的海牛
一个面向研发人员与工程师的交流平台
展开
-
2019.02.23-中国银联-Apache Kylin 在中国银联的实践
讲师:王颖卓 中国银联 科技事业部高级主管演讲概要:10年前,中国银联建成了统一的企业级数据仓库,确立了以 IBM Cognos 为核心的多维分析应用。经过10年的积累,IBM Cognos 在各个方面都迎来了巨大的挑战。经过选型验证,中国银联把以 Apache Kylin 为核心的 Kyligence 作为大数据多维分析的核心技术组件,并在 Kyligence 的基础之上进行了定制化的开发。...原创 2019-02-26 22:21:56 · 355 阅读 · 0 评论 -
桑文锋《数据化建设的时代机遇》
一家企业落地数据驱动包括三个层面:第一层是高层建立数据驱动意识; 第二层是公司的整体业务流程的改造,并将数据驱动引入;第三层是真正的落地层面。原文&下载https://www.slidestalk.com/s/74258...原创 2019-01-23 19:17:40 · 153 阅读 · 0 评论 -
Spark Structured Streaming
With the ubiquity of real-time data, organizations need streaming systems that are scalable, easy to use, and easy to integrate into business applications. Structured Streaming is a new high-level str...原创 2019-01-23 19:15:19 · 180 阅读 · 0 评论 -
从AliHbase到Lindorm,阿里大规模存储产品演进
此篇来自全球互联网架构大会(GIAC)的分享— — 栾小凡-从AliHbase到Lindorm,阿里大规模存储产品演进简单介绍一下作者栾小凡 花名:轶俗专注于数据库存储领域,曾就职于Oracle,HEDVIG,研发过Cassandra,AliHBase等多款开源大数据数据库产品目前负责阿里巴巴新一代大规模高吞吐NoSQL数据库Lindorm的研发工作过去 10 年,随着互联网技术的快速...原创 2018-12-11 17:19:43 · 5168 阅读 · 0 评论 -
【上海】Data Infra Meetup(12/22)
数据创造价值!数据深刻改变了许多传统行业的盈利和营销模式,其背后基础架构技术的演进,也深刻决定了我们的处理数据的效率与洞察数据本质的能力。PingCAP和示说网(SlidesTalk)发起的Data Infra Meetup,邀请了来自宝尊电商,阿里云,PingCAP的资深工程师同行,一起来探讨大数据开源框架TiDB和Apache Spark在SQL层面的执行原理,优化方案,以及电商数据的技术解...原创 2018-12-13 15:58:03 · 307 阅读 · 0 评论 -
【活动】Apache Pulsar上海技术交流
为了让更多开发者接触和了解Pulsar,Streamlio联合智联招聘、示说网,把Apache Pulsar Meetup从硅谷带到了上海。在此之前,小编也推过很多关于Apache Pulsar的ppt,大家可以点击订阅号精彩内容菜单,再次深入了解Pulsar。活动详情本次 Apache Pulsar 线下活动技术交流群,扫码关注获取交流群信息!...原创 2018-12-04 18:24:54 · 197 阅读 · 0 评论 -
eBay大规模数仓优化
在eBay,我们每天需要处理超过60PB的数据,在使用Spark进行数据处理的时候,我们遇见了不少性能问题,解决这些问题通常需要大量的人工配置来干预或者优化,极大了增加了工作量;因此我们引入了Adaptive Execution(Dynamically Optimize execution) 和Indexed Bucket(Optimize Data Layout),以及一系列小的性能优化,本文讲...原创 2018-11-20 11:28:40 · 175 阅读 · 0 评论 -
Spark 机器学习&深度学习实战
Apache spark机器学习(MLlib)和深度学习(Deep Learning Pipelines)实战,为想深入了解或者实战Spark MLlib的同学提供一些参考。原文https://www.slidestalk.com/s/sparkmlibrpractice 可下载扫码关注示说网公众号 查看活动与加群...原创 2018-11-16 17:01:32 · 997 阅读 · 0 评论 -
Spark 原理与实践
Spark 系统是分布式批处理系统和分析挖掘引擎 ; AMP LAB 贡献到 Apache 社区的开源项目,是 AMP 大数据栈的基础组件;做什么 数据处理( Data Processing ):可以用来快速处理数据,兼具容错性和可扩展性。迭代计算( Iterative Computation ):支持迭代计算,有效应对多步的数据处理逻辑。 数据挖掘 ( Data Mining ):在海量数据基础...原创 2018-11-21 11:46:10 · 554 阅读 · 0 评论 -
JuiceFS:打造下一代云原生大数据存储系统
传统的云原生(Cloud Native)大数据处理,,从数据的一致性到元数据的管理,面临着各种性能和编程上挑战。HDFS虽然有着不错的性能,和扩展性,但是在使用成本和运维成本上也面临诸多顾虑。JuiceFS是下一代的基于云原生的分布式文件系统,利用OSS/S3/HDFS等公有云存储,在元数据管理上做到弹性管理,极大提升了云原生应用的数据处理效率,支持Spark/Impala/TensorFlow/...原创 2018-11-21 11:28:19 · 2359 阅读 · 0 评论 -
Alluxio原理和应用场景随笔
上周末有幸参加了Alluxio(之前也叫Tachyon),七牛云和示说网举办的Alluxio上海Meetup,之前我并没有在真实应用场景中使用过Alluxio,对其适用的应用场景一直报怀疑态度。自信聆听其创始人的演讲之后,感觉这个项目还挺有意思,对Alluxio简单总结一下:DAL(数据访问层)Alluxio DALAlluxio提供了各种文件访问API,包括兼容HDFS的API,Allu...原创 2018-11-12 18:41:30 · 830 阅读 · 0 评论 -
Apache Spark on K8s的安全性和性能优化
前言Apache Spark是目前最为流行的大数据计算框架,与Hadoop相比,它是替换MapReduce组件的不二选择,越来越多的企业正在从传统的MapReduce作业调度迁移到Spark上来,Spark的生态圈支持者越来越多,当然它出众的内部API设计,让它也非常容易和现有既成事实的Hadoop组件(YARN/HDFS)集成。容器技术的兴起,各种分布式的容器编排技术也应运而生,其中的佼佼者...原创 2018-11-12 18:35:44 · 194 阅读 · 0 评论 -
上海大数据技术汇(浦东爱酷空间)
由创略科技赞助的大数据技术汇第二场线下公益技术交流开始报名啦: https://www.slidestalk.com/m/4这次示说网邀请了Spark 核心贡献者,前databricks工程师,PySpark和Spark Tungsten 1/2项目的核心作者,讲存储计算分离原则实践和思考;Intel存储方案高级架构师讲存储技术的历史发展和变迁,带来的大数据诸如Spark框架优化最佳参考实践...原创 2018-11-08 14:49:22 · 323 阅读 · 0 评论 -
Apache Kylin 2.5 Updates
2018年10月 Apache Kylin meetup@杭州,Apache Kylin committer & PMC 分享了 Kylin v2.5.0 的新功能和改进,以及社区进行中的一些任务。原文https://www.slidestalk.com/s/ApacheKylin25Updates66588...原创 2018-11-05 19:18:35 · 119 阅读 · 0 评论 -
HBase在爱奇艺的应用实践
本次分享来自中国HBase技术社区第七届MeetUp成都站,分享嘉宾郑浩南 爱奇艺 资深研发工程师,专注于大数据领域,负责Hadoop服务的运维研究以及DevOps平台开发。随着大数据存储计算对延时吞吐要求越来越高,需求日益复杂化,HBase在爱奇艺中被广泛应用和实践以应对多样化的业务场景。本次演讲将介绍HBase在爱奇艺的部署模式和使用场景,以及在爱奇艺私有云环境下的运维策略。...原创 2018-11-05 19:16:28 · 232 阅读 · 0 评论 -
HBase2.0重新定义小对象实时存取
本次分享来自中国HBase技术社区第七届MeetUp成都站,分享嘉宾天引 阿里巴巴 技术专家专注在大数据领域,拥有多年分布式、高并发、大规模系统的研发与实践经验,先后参与hbase、phoenix、lindorm等产品的内核引擎研发,目前负责阿里上万节点的HBase As a Service的发展与落地。分享主题:HBase2.0重新定义小对象实时存取内容概要:小对象,特别指1K~10MB范围...原创 2018-11-05 19:14:19 · 144 阅读 · 0 评论 -
The Data Ecosystem 2.0
Alluxio创始人&CEO李浩源博士在2018 BDTC大会上的主题演讲。介绍大数据和AI时代计算存储架构的演进,以及Alluxio在生态系统中的位置。想要了解更多Alluxio,访问官网alluxio.org原文&下载https://www.slidestalk.com/s/Alluxio_BDTC2018_Keynote...原创 2019-01-23 19:26:09 · 213 阅读 · 0 评论 -
ABRiS: Avro bridge for Apache Spark
ABRiS是来非洲的金融服务供应商,他们利用Apache Spark作为核心的数据处理引擎,本篇会讲解他们在Spark以及Spark生态中的工作贡献。原文&下载https://www.slidestalk.com/s/abris_avro_bridge_for_apache_spark_1548134566963...原创 2019-01-23 19:28:43 · 164 阅读 · 0 评论 -
2019.02.23-携程-Apache Kylin 在携程大数据平台的优化及演进
讲师:张巍 携程 大数据资深研发工程师演讲概要:本次分享将介绍携程在使用 Kylin 的过程中遇到的挑战和相关优化以及对于未来的展望。原文&下载https://www.slidestalk.com/s/apache_kylin_ctrip_optimization_evolution...原创 2019-02-26 22:17:01 · 223 阅读 · 0 评论 -
2019.02.23-Kyligence-为 Apache Kylin 快速开发新数据源
讲师:李栋 Kyligence 技术合伙人兼生态合作技术总监演讲概要:从v2.6.0版本开始,Apache Kylin 提供了一个Data Source SDK的功能,可以帮助开发者通过快速开发,实现Apache Kylin与新数据源的对接。通过JDBC接口,Apache Kylin可以从新数据源构建Cube、查询下压,满足企业在数据湖进行自助分析的需求。本次分享将对这一SDK的原理、最佳实践进...原创 2019-02-26 22:13:42 · 373 阅读 · 0 评论 -
2018 HBase技术总结
HBase 是一个高性能,并且支持无限水平扩展的在线数据库,其存储计算分离的特性非常好地适应了目前的趋势,并且在国内大公司内都被广泛地应用,具有非常好的生态,是构建大数据系统的不二选择。原文&下载https://www.slidestalk.com/s/HBase_ebook28532...原创 2019-02-26 22:10:33 · 360 阅读 · 0 评论 -
Sizing the prize What’s the real value of AI for your business and how can you c
Artificial intelligence (AI) can transform the productivity and GDP potential of the global economy. Strategic investment in different types of AI technology is needed to make that happen.Labour prod...原创 2019-02-28 17:00:39 · 329 阅读 · 0 评论 -
Kafka quick start
原文&地址https://www.slidestalk.com/s/Kafkaquickstart49206原创 2019-02-27 23:35:43 · 1212 阅读 · 0 评论 -
DH内存分析引擎
DH内存分析引擎专为高性能和大数据分析构建,比传统数据库 快 50x – 1000x。且基于工业化标准服务器,从TB 到 PB 快速扩展。原文链接及下载https://www.slidestalk.com/s/DH97246...原创 2019-02-21 23:08:57 · 218 阅读 · 0 评论 -
PayPal merchant ecosystem using Apache Spark, Hive, Druid,
As one of the few closed-loop payment platforms, PayPal is uniquely positioned to provide merchants with insights aimed to identify opportunities to help grow and manage their business. PayPal process...原创 2019-01-22 19:20:10 · 121 阅读 · 0 评论 -
标签体系应用及设计思路
标签画像是精准营销、产品应用的中间层基础,可以实现的业务价值包含基于用户群体的生命周期管理、高价值客户深入开发、交叉营销,也可以输出用于个性化推送、个性化推荐以及个性化实时营销,同时也是数据分析和用户分析的属性源,具备非常强的应用价值。标签体系的建设,核心是从应用场景和商业目的出发,基于对业务形态和策略的理解之上,从业务需求反推标签及体系设计,同时也强调了标签的管理和可持续维护的重要性,并分享了某...原创 2019-01-22 19:14:03 · 3501 阅读 · 0 评论 -
陈华曦--基于Apache Flink的搜索处理平台
原文转载&下载:陈华曦–基于Apache Flink的搜索处理平台原创 2019-01-21 19:06:54 · 418 阅读 · 0 评论 -
MLflow v0.8.1具有更快的实验UI和增强的Python模型
MLflow v0.8.1本周发布。它引入了几个UI增强功能,包括数千次运行的更快加载时间,以及在使用许多指标和参数进行导航运行时提高响应速度。此外,它扩展了对作为Apache Spark UDF评估Python模型的支持,并自动将模型依赖性捕获为Conda环境。现在可以在[PyPI]和在线文档中使用,您可以pip install mlflow按照MLflow快速入门指南中的说明安装此新版本 。...原创 2019-01-21 16:36:02 · 577 阅读 · 0 评论 -
邹丹_Flink在字节跳动的实践
原文&下载[https://www.slidestal原创 2019-01-25 18:07:34 · 794 阅读 · 0 评论 -
Large-Scale Data Processing with MapReduce
介绍了MapReduce的诞生的背景,基本原理,算法思想,以及如何用于文本挖掘,管理关系型数据,如何进行图计算及常用图计算的实现伪代码(Dijkstra’s / BFS / PageRank),最后谈到了大数据之上的存储HDFS/HBASE以及Hive和Pig。虽然不是最新的流行趋势,但是已经把大数据领域最基本的问题讲清楚了。原文&下载https://www....原创 2019-01-25 18:04:01 · 132 阅读 · 0 评论 -
分布式计算平台介绍
分布式计算系统平台是将一系列用计算机网络相连接通信的,独立计算的模式和组件,集成到一个统一的平台,展现给用户的是一个完整的独立计算平台。本文介绍分布式计算平台的基本概念和不同计算模式,并对当前最为流行的Apache Spark / Hadoop原理做深入分享。原文&下载https://www.slidestalk.com/s/distributed_platf...原创 2019-01-25 17:59:33 · 3045 阅读 · 0 评论 -
Kyligence公开课-Apache Superset设计与SQL查询
本次公开课邀请了 Kyligence 公司的 Python 全栈工程师赵勇杰为我们讲解Apache Superset。课程通过讲解 Superset 代码,使您可以快速了解 Superset 的系统设计,其中包含:Superset 系统架构、Superset 代码结构讲解、可视化查询到 SQL 生成过程。原文&下载https://www.slidestalk....原创 2019-01-24 19:03:38 · 248 阅读 · 0 评论 -
Introduction to Spark
Spark’s goal was to generalize MapReduce to support new applications within the same engineTwo additions:Fast data sharingGeneral DAGs (directed acyclic graphs)Best of both worlds: easy to program...原创 2019-01-24 19:00:23 · 135 阅读 · 0 评论 -
大规模日志数据企业级分布式平台架构面临的问题与挑战
本次分享大规模日志数据企业级分布式平台架构面临的问题与挑战,架构之争和演进之路,当前架构的关键技术,未来架构优化思考。原文&下载https://www.slidestalk.com/s/Enterprise_Distributed_Platform_Architecture...原创 2019-01-24 18:56:30 · 155 阅读 · 0 评论 -
Analytics Zoo: Unifying Big Data Analytics and AI for Spark
上周六Intel Apache Spark +AI活动PPT!Analytics Zoo: Unifying Big Data Analytics and AI for Spark介绍了包括3部分的内容:Apache Spark之上的分布式深度学习框架BigDL原理介绍,其中涉及分布式数据并行训练的基本原理,如何利用Analytics Zoo构建端到端的分布式深度学习应用,及Analytics ...原创 2018-11-07 15:55:49 · 303 阅读 · 0 评论 -
店家的Apache Kylin 应用之旅
2018年10月Apache Kylin meetup@杭州站,店+大数据技术总监分享了从传统数据库,到使用Apache Kylin,以及升级到 Kyligence Enterprise 的历程。原文:https://www.slidestalk.com/s/ApacheKylinInDianjia...原创 2018-11-06 11:45:58 · 123 阅读 · 0 评论 -
什么使流处理从工具变成平台?
流式数据处理是一个非常强大有意思的编程范式,对于Apache Flink而言,更是如此,年复一年的发布,我们看到Flink在各种应用场景下发挥作用,当然也看到不少挑战。抛开Flink本身不谈(Flink的CTO就是这么牛气),流式数据处理概念范畴会更为宽广,比如把不同计算数据架构都集成到一个平台中,使其实现数据分析,数据规整,SQL,机器学习,数据源管理,数据库等等一切以数据驱动的基础架构,在峰会...原创 2018-10-19 12:17:32 · 157 阅读 · 0 评论 -
Testing Stateful Streaming Applications
当很多原先是批处理的程序,迁移到实时数据处理环境中的时候,继续维护之前的复杂业务逻辑变得很难。Flink提供了高级和低级两层API,用于写不同的有状态实时数据处理程序,然而当程序变得很复杂的时候,我们很难理解并调试,这里我们将聊聊如何测试流式数据处理程序的最佳实践。篇幅过长,原文浏览https://www.slidestalk.com/s/TestingStatefu...原创 2018-10-19 12:03:14 · 83 阅读 · 0 评论 -
Apache Spark开发介绍
Databricks的工程师,Apache Spark Committer介绍了Databricks和Spark的历史,包括了Spark 1.4中的重要特性和进展,涵盖了Spark早期版本的主要功能和使用方法,讲了大数据领域近些年的发展,也介绍了Spark从这些年其它理论或者技术中吸取的灵感,当然,更多介绍了Spark的基本组件的使用方法,可以看作非常好的Spark教学教程。篇幅过长 点击下载...转载 2018-10-10 11:31:21 · 624 阅读 · 0 评论 -
小米大数据 OLAP 实践之 Lambda Architecture
在2018年8月Apache Kylin meetup@北京活动上,小米大数据架构师分享了小米 OLAP 平台,基于 Apache Kylin 和其它实时引擎组成的 Lambda 架构,以满足业务对数据查询性能以及及时性的多重要求。篇幅过长,原文浏览地址https://www.slidestalk.com/s/Lambda_Architecture_Kylin69481...原创 2018-10-16 13:27:33 · 394 阅读 · 0 评论