【邀请函】Greenplum和机器学习用户大会

f2454dfc-dd08-47f4-ac57-bf01b056232a.png 2c8c7658-3535-405d-aba9-b035547d4ee3.png  2017年11月4日                  b0b3d8d8-d567-437f-9431-21882ce58170.png 上海云南南路118号凯腾大厦12楼

主题:Greenplum和机器学习

2a21fc4f-3ece-4ed0-be8e-7c2b8c4afcb3.png



会议介绍

Pivotal Greenplum是唯一的开源无共享大规模并行处理(MPP)数据库,专为商业智能处理和高级数据分析而设计。它专门适用于机器学习和高级数据科学,由全世界最先进的成本型查询优化器提供支持,能够针对海量数据提供无与伦比的分析查询性能,具备灵活性,各种功能完备,并可以与领先的分析库和软件紧密集成。

 

为了更好的回馈Greenplum中国用户,我们特邀来自阿里、易观和观远的嘉宾,以及来自Pivotal中国和美国的Greenplum研发中心的嘉宾与您分享Greenplum 5.0的发布和各项新功能、用户使用Greenplum的成功经验、Greenplum在机器学习方面的心得和成功案例。

 

此外,Pivotal数据全球副总裁Elisabeth Hendrickson和Pivotal中国研发中心总经理冯雷也将参与并分享更多国内外战略发展方向。



本次Greenplum用户大会干货多多,我们还为每位参会者准备了精美的礼品。席位有限,报名从速!



会议安排

1

9:00 - 9:30  签到 


2

9:30 - 9:45  开场


Elisabeth Hendrickson,Pivotal数据全球副总裁

冯雷,Pivotal中国研发中心总经理

3

9:45 - 10:30  新一代数据平台: Greenplum 5.0  

    姚延栋,Pivotal Greenplum研发总监

4

10:30 - 10:45  茶歇



5

10:45 - 11:30  Pb级大数据Ad-Hoc查询选型 - Greenplum vs. Presto vs. Kylin


 郭炜,易观大数据CTO

6


11:30 - 12:00  合影,自由交流


7

12:00 - 13:00  午餐 


8

13:00 - 13:45  借助Greenplum Database构建完整的云数据库生态


萧少聪,阿里云数据库高级产品经理,PostgreSQL中国用户会2015-2017届主席

9

13:45 - 14:30  Machine Learning on Greenplum— MADlib 简介与应用实例  

    梅靖怡,Pivotal Greenplum Madlib研发工程师

10

14:30 - 14:45  茶歇


11

14:45 - 15:30  Procedural Language In Container  -- Greenplum助力数据科学计算


郭罡,Pivotal Greenplum资深研发工程师

12


15:30 - 16:00  DT时代 探索数据到决策的最短路径

 

苏春园,观远数据创始人/CEO  



嘉宾介绍

a808cefc-faea-43d5-9af4-5a7e655a73af.png

姚延栋

姚延栋先生现任Pivotal公司研发总监,负责 Greenplum 数据库和 SQL-on-Hadoop 产品 HAWQ 的内核研发。毕业于中科院软件所,2010 年加入 Greenplum,之前曾在Sun Microsystem 与 Symantec 系统和存储部门工作多年。


演讲内容简介


大数据热词逐渐消退;大数据项目更多落地。这种潮流之下,用户需要一个完善的系统的数据平台,而不是多个孤立的系统,以解决面临的各种各样的大数据挑战,实现数据驱动创新、数据驱动价值的闭环。新一代数据平台 Greenplum 5.0 基于开源 PostgreSQL,融合 Pivotal 数据库专家团队的持续创新,适应各种类型的部署,适应各种类型的数据源,适应各种类型的数据,提供了前所未有的数据处理和分析能力。


1c5f2c34-3a5b-4902-a13c-2ccd465cfa6e.png

郭炜

郭炜先生2016年加入易观,担任易观CTO,构建易观技术团队完成易观大数据采集、平台、数据挖掘等技术架构与体系,从无到有完成易观混合云搭建、易观SDK升级并发布易观秒算实时计算平台,目前易观大数据平台日处理数据量242亿条,月活用户4.8亿。

郭炜先生毕业于北京大学,加入易观之前,曾任联想研究院大数据总监,万达电商数据部总经理,并曾在中金、IBM、Teradata公司担任大数据方向重要岗位,对大数据前沿领域研究,包括视频、智能WIFI等大数据软硬数据一体技术有独特的见解。


演讲内容简介


易观的数据量越来越多,从初始的日活用户不足千万,现在已经日活用户接近1个亿,每日数据增量也超过10Tb。除了日常的批量大数据处理、推荐、标签业务之外,越来越多的产品要支持用户的及时的复杂查询。例如,根据人群标签看APP的排名,例如根据事件条件选择步骤查询转化漏斗等,每个不同的即时查询面对的数据集合查询情况都有所不同,整体来讲可以通过Spark研发完成大部分的场景。但是全面采用Spark Core的研发代价有过高,在使用途中易观有幸在实践中和Greenplum团队共同完成了大数据Ad-hoc场景的建设,同时在后面的建设过程当中也使用到了Presto和Kylin适用于不同的查询场景和体系。目前易观的整体数据集群超过5.8Pb,其中Greenplum占用1.8Pb存储,存储率超过60%。本次分享主要分享易观使用GP的历程以及各种情况下GP适用的场景。

40a663ed-5cfb-4857-94a6-960b5ca09ec7.png

萧少聪

阿里云计数据库高级产品经理,主要负责RDS产品的发展规划及产品运营,PostgreSQL中国用户会2015-2017届主席。


演讲内容简介


阿里云自2015年开始提供云数据库PostgreSQL服务,并于2016年底基于Greenplum Databse提供HybridDB for PostgreSQL数据仓库服务。本主题将为大家讲解阿里云通过Greenplum Database赋能数据库产品,协助互联网行业用户形成从OLTP->OLAP->BigData全线打通的架构方案。


0e7c63e6-8414-48b0-803e-3e276c8d8588.png

苏春园

苏春园先生在商务智能和数据分析领域有十五年资深经验,现任观远数据创始人/CEO,带领团队服务多家全球与中国500强企业,涵盖零售、金融、制造、电信和互联网等行业,为客户提供大数据和商务智能解决方案。在创立观远数据前,任MicroStrategy(微策略)全球高管和中国区研发总裁,领导300多人的中国与美国团队参与商务智能产品的全球发布,其负责的MicroStrategy服务器产品线每年全球客户收入超1亿美金。毕业于Carnegie Mellon University 卡内基梅隆大学(数据分析硕士)。


演讲内容简介


DT时代,数据生态和业务需求不断有新趋势和新变化,企业在如何运用数据辅助决策上也遇到新困惑和新难题,本次演讲将探讨企业在这样的环境下如何基于Greenplum进行下一代的数据分析和决策支持。从理念、方法、工具上分享观远数据新一代商务智能(BI)方案的要点和解决方案思路。


70ae26b7-ac3d-492a-b5b3-60338cc1f426.png

梅靖怡

梅靖怡于2016年加入美国Pivotal Data R&D, 从事Greenplum开发相关工作,2017年加入MADlib, 负责MADlib的算法实现、性能优化和持续集成。梅靖怡2014年毕业于上海交通大学安泰经济与管理学院工商管理专业,2015年取得美国卡耐基梅隆大学计算机硕士学位。先后任职于Oracle和Pivotal Data, 从事数据库开发相关工作。


演讲内容简介


Apache MADlib是Pivotal与UC Berkeley合作的一个开源机器学习库,提供了精确的数据并行实现、统计和机器学习方法对结构化和非结构化数据进行分析。MADlib提供了丰富的分析模型,包括回归分析,决策树,随机森林,贝叶斯分类,向量机,风险模型,KMEAN聚集,文本挖掘,数据校验等。 MADlib 支持Greenplum, PostgreSQL 以及 Apache HAWQ, In-Database Analytics的特性使其大大扩展了数据库的分析功能,充分利用MPP架构使其能够快速处理海量数据集。本主题将为大家介绍MADlib的基本架构,工作原理及特性,分享MADlib在互联网,金融,零售等行业的用户案例,展望In-Database Machine Learning的广阔前景。


ce76aae9-e6a0-4c94-abc7-119c298bcb5b.png

郭罡

Paul Guo现在Pivotal北京研发中心从事软件开发工作。有超过十年的基础软件开发经验,最近三年多主要经历和兴趣是分布式存储和分布式数据库开发,在此之前一直从事Unix/Linux内核以及系统软件开发工作。Paul Guo毕业于中国科技大学(电子工程硕士)。


演讲内容简介


Python和R是数据科学家的分析利器,Greenplum的Procedural Language对Python 和R进行了良好的支持。Procedural Language、Madlib、GPText使得Greenplum用户既能享受到MPP并行数据库的性能优势,又能进行科学的数学计算。本次分享会对Greenplum即将推出的新功能展开介绍:使用容器技术进行Procedural Language计算。


点击文章底部“阅读原文”进入报名页面,期待您的参与!



本文分享自微信公众号 - Greenplum中文社区(GreenplumCommunity)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Greenplum 之前是一家总部位于美国加利福尼亚州,为全球大型企业用户提供新型企业级数据仓库(EDW)、企业级数据云(EDC)和商务智能(BI)提供解决方案和咨询服务的公司。目前 Greenplum 已经归属 Pivotal。 Greenplum DB 号称是世界上第一个开源的大规模并行数据仓库,最初是基于 PostgreSQL,现在已经添加了大量数据库方面的创新。Greenplum 提供 PD 级别数据量的强大和快速分析能力,特别是面向大数据方面的分析能力,支持大数据的超高性能分析查询。 GreenPlum 主要特性: 大规模并行处理架构 高性能加载,使用 MPP 技术,提供 Petabyte 级别数据量的加载性能 大数据工作流查询优化 多态数据存储和执行 基于 Apache MADLib 的高级机器学习功能 Greenplum 采用 Apache 协议开源之后,加上之前的 HAWQ,PostgreSQL 以及 PostGIS,完全可以构建一体化的 PostgreSQL 企业数据架构。 Greenplum的架构采用了MPP(大规模并行处理)。在 MPP 系统中,每个 SMP 节点也可以运行自己的操作系统、数据库等。换言之,每个节点内的 CPU 不能访问另一个节点的内存。节点之间的信息交互是通过节点互联网络实现的,这个过程一般称为数据重分配(Data Redistribution) 。与传统的SMP架构明显不同,通常情况下,MPP系统因为要在不同处理单元之间传送信息,所以它的效率要比SMP要差一点,但是这也不是绝对的,因为 MPP系统不共享资源,因此对它而言,资源比SMP要多,当需要处理的事务达到一定规模时,MPP的效率要比SMP好。这就是看通信时间占用计算时间的比例而定,如果通信时间比较多,那MPP系统就不占优势了,相反,如果通信时间比较少,那MPP系统可以充分发挥资源的优势,达到高效率。当前使用的 OTLP程序中,用户访问一个中心数据库,如果采用SMP系统结构,它的效率要比采用MPP结构要快得多。而MPP系统在决策支持和数据挖掘方面显示了优势,可以这样说,如果操作相互之间没有什么关系,处理单元之间需要进行的通信比较少,那采用MPP系统就要好,相反就不合适了。 标签:Greenplum
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值