主题:Greenplum和机器学习
会议介绍
Pivotal Greenplum是唯一的开源无共享大规模并行处理(MPP)数据库,专为商业智能处理和高级数据分析而设计。它专门适用于机器学习和高级数据科学,由全世界最先进的成本型查询优化器提供支持,能够针对海量数据提供无与伦比的分析查询性能,具备灵活性,各种功能完备,并可以与领先的分析库和软件紧密集成。
为了更好的回馈Greenplum中国用户,我们特邀来自阿里、易观和观远的嘉宾,以及来自Pivotal中国和美国的Greenplum研发中心的嘉宾与您分享Greenplum 5.0的发布和各项新功能、用户使用Greenplum的成功经验、Greenplum在机器学习方面的心得和成功案例。
此外,Pivotal数据全球副总裁Elisabeth Hendrickson和Pivotal中国研发中心总经理冯雷也将参与并分享更多国内外战略发展方向。
本次Greenplum用户大会干货多多,我们还为每位参会者准备了精美的礼品。席位有限,报名从速!
会议安排
1
9:00 - 9:30 签到
2
9:30 - 9:45 开场
Elisabeth Hendrickson,Pivotal数据全球副总裁
冯雷,Pivotal中国研发中心总经理
3
9:45 - 10:30 新一代数据平台: Greenplum 5.0
姚延栋,Pivotal Greenplum研发总监
4
10:30 - 10:45 茶歇
5
10:45 - 11:30 Pb级大数据Ad-Hoc查询选型 - Greenplum vs. Presto vs. Kylin
郭炜,易观大数据CTO
6
11:30 - 12:00 合影,自由交流
7
12:00 - 13:00 午餐
8
13:00 - 13:45 借助Greenplum Database构建完整的云数据库生态
萧少聪,阿里云数据库高级产品经理,PostgreSQL中国用户会2015-2017届主席
9
13:45 - 14:30 Machine Learning on Greenplum— MADlib 简介与应用实例
梅靖怡,Pivotal Greenplum Madlib研发工程师
10
14:30 - 14:45 茶歇
11
14:45 - 15:30 Procedural Language In Container -- Greenplum助力数据科学计算
郭罡,Pivotal Greenplum资深研发工程师
12
15:30 - 16:00 DT时代 探索数据到决策的最短路径
苏春园,观远数据创始人/CEO
嘉宾介绍
姚延栋
姚延栋先生现任Pivotal公司研发总监,负责 Greenplum 数据库和 SQL-on-Hadoop 产品 HAWQ 的内核研发。毕业于中科院软件所,2010 年加入 Greenplum,之前曾在Sun Microsystem 与 Symantec 系统和存储部门工作多年。
演讲内容简介
大数据热词逐渐消退;大数据项目更多落地。这种潮流之下,用户需要一个完善的系统的数据平台,而不是多个孤立的系统,以解决面临的各种各样的大数据挑战,实现数据驱动创新、数据驱动价值的闭环。新一代数据平台 Greenplum 5.0 基于开源 PostgreSQL,融合 Pivotal 数据库专家团队的持续创新,适应各种类型的部署,适应各种类型的数据源,适应各种类型的数据,提供了前所未有的数据处理和分析能力。
郭炜
郭炜先生2016年加入易观,担任易观CTO,构建易观技术团队完成易观大数据采集、平台、数据挖掘等技术架构与体系,从无到有完成易观混合云搭建、易观SDK升级并发布易观秒算实时计算平台,目前易观大数据平台日处理数据量242亿条,月活用户4.8亿。
郭炜先生毕业于北京大学,加入易观之前,曾任联想研究院大数据总监,万达电商数据部总经理,并曾在中金、IBM、Teradata公司担任大数据方向重要岗位,对大数据前沿领域研究,包括视频、智能WIFI等大数据软硬数据一体技术有独特的见解。
演讲内容简介
易观的数据量越来越多,从初始的日活用户不足千万,现在已经日活用户接近1个亿,每日数据增量也超过10Tb。除了日常的批量大数据处理、推荐、标签业务之外,越来越多的产品要支持用户的及时的复杂查询。例如,根据人群标签看APP的排名,例如根据事件条件选择步骤查询转化漏斗等,每个不同的即时查询面对的数据集合查询情况都有所不同,整体来讲可以通过Spark研发完成大部分的场景。但是全面采用Spark Core的研发代价有过高,在使用途中易观有幸在实践中和Greenplum团队共同完成了大数据Ad-hoc场景的建设,同时在后面的建设过程当中也使用到了Presto和Kylin适用于不同的查询场景和体系。目前易观的整体数据集群超过5.8Pb,其中Greenplum占用1.8Pb存储,存储率超过60%。本次分享主要分享易观使用GP的历程以及各种情况下GP适用的场景。
萧少聪
阿里云计数据库高级产品经理,主要负责RDS产品的发展规划及产品运营,PostgreSQL中国用户会2015-2017届主席。
演讲内容简介
阿里云自2015年开始提供云数据库PostgreSQL服务,并于2016年底基于Greenplum Databse提供HybridDB for PostgreSQL数据仓库服务。本主题将为大家讲解阿里云通过Greenplum Database赋能数据库产品,协助互联网行业用户形成从OLTP->OLAP->BigData全线打通的架构方案。
苏春园
苏春园先生在商务智能和数据分析领域有十五年资深经验,现任观远数据创始人/CEO,带领团队服务多家全球与中国500强企业,涵盖零售、金融、制造、电信和互联网等行业,为客户提供大数据和商务智能解决方案。在创立观远数据前,任MicroStrategy(微策略)全球高管和中国区研发总裁,领导300多人的中国与美国团队参与商务智能产品的全球发布,其负责的MicroStrategy服务器产品线每年全球客户收入超1亿美金。毕业于Carnegie Mellon University 卡内基梅隆大学(数据分析硕士)。
演讲内容简介
DT时代,数据生态和业务需求不断有新趋势和新变化,企业在如何运用数据辅助决策上也遇到新困惑和新难题,本次演讲将探讨企业在这样的环境下如何基于Greenplum进行下一代的数据分析和决策支持。从理念、方法、工具上分享观远数据新一代商务智能(BI)方案的要点和解决方案思路。
梅靖怡
梅靖怡于2016年加入美国Pivotal Data R&D, 从事Greenplum开发相关工作,2017年加入MADlib, 负责MADlib的算法实现、性能优化和持续集成。梅靖怡2014年毕业于上海交通大学安泰经济与管理学院工商管理专业,2015年取得美国卡耐基梅隆大学计算机硕士学位。先后任职于Oracle和Pivotal Data, 从事数据库开发相关工作。
演讲内容简介
Apache MADlib是Pivotal与UC Berkeley合作的一个开源机器学习库,提供了精确的数据并行实现、统计和机器学习方法对结构化和非结构化数据进行分析。MADlib提供了丰富的分析模型,包括回归分析,决策树,随机森林,贝叶斯分类,向量机,风险模型,KMEAN聚集,文本挖掘,数据校验等。 MADlib 支持Greenplum, PostgreSQL 以及 Apache HAWQ, In-Database Analytics的特性使其大大扩展了数据库的分析功能,充分利用MPP架构使其能够快速处理海量数据集。本主题将为大家介绍MADlib的基本架构,工作原理及特性,分享MADlib在互联网,金融,零售等行业的用户案例,展望In-Database Machine Learning的广阔前景。
郭罡
Paul Guo现在Pivotal北京研发中心从事软件开发工作。有超过十年的基础软件开发经验,最近三年多主要经历和兴趣是分布式存储和分布式数据库开发,在此之前一直从事Unix/Linux内核以及系统软件开发工作。Paul Guo毕业于中国科技大学(电子工程硕士)。
演讲内容简介
Python和R是数据科学家的分析利器,Greenplum的Procedural Language对Python 和R进行了良好的支持。Procedural Language、Madlib、GPText使得Greenplum用户既能享受到MPP并行数据库的性能优势,又能进行科学的数学计算。本次分享会对Greenplum即将推出的新功能展开介绍:使用容器技术进行Procedural Language计算。
点击文章底部“阅读原文”进入报名页面,期待您的参与!
本文分享自微信公众号 - Greenplum中文社区(GreenplumCommunity)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。