【邀请函】Greenplum和机器学习用户大会

最新推荐文章于 2023-04-19 10:55:48 发布

Greenplum中文社区

最新推荐文章于 2023-04-19 10:55:48 发布

阅读量163

点赞数

文章标签：数据库分布式大数据人工智能数据分析

本文链接：https://blog.csdn.net/gp_community/article/details/109897126

版权

2017年11月4日

上海云南南路118号凯腾大厦12楼

主题：Greenplum和机器学习

会议介绍

Pivotal Greenplum是唯一的开源无共享大规模并行处理（MPP）数据库，专为商业智能处理和高级数据分析而设计。它专门适用于机器学习和高级数据科学，由全世界最先进的成本型查询优化器提供支持，能够针对海量数据提供无与伦比的分析查询性能，具备灵活性，各种功能完备，并可以与领先的分析库和软件紧密集成。

为了更好的回馈Greenplum中国用户，我们特邀来自阿里、易观和观远的嘉宾，以及来自Pivotal中国和美国的Greenplum研发中心的嘉宾与您分享Greenplum 5.0的发布和各项新功能、用户使用Greenplum的成功经验、Greenplum在机器学习方面的心得和成功案例。

此外，Pivotal数据全球副总裁Elisabeth Hendrickson和Pivotal中国研发中心总经理冯雷也将参与并分享更多国内外战略发展方向。

本次Greenplum用户大会干货多多，我们还为每位参会者准备了精美的礼品。席位有限，报名从速！

会议安排

9:00 - 9:30 签到

9:30 - 9:45 开场

Elisabeth Hendrickson，Pivotal数据全球副总裁

冯雷，Pivotal中国研发中心总经理

9:45 - 10:30 新一代数据平台: Greenplum 5.0

姚延栋，Pivotal Greenplum研发总监

10:30 - 10:45 茶歇

10:45 - 11:30 Pb级大数据Ad-Hoc查询选型－ Greenplum vs. Presto vs. Kylin

郭炜，易观大数据CTO

11:30 - 12:00 合影，自由交流

12:00 - 13:00 午餐

13:00 - 13:45 借助Greenplum Database构建完整的云数据库生态

萧少聪，阿里云数据库高级产品经理，PostgreSQL中国用户会2015-2017届主席

13:45 - 14:30 Machine Learning on Greenplum— MADlib 简介与应用实例

梅靖怡，Pivotal Greenplum Madlib研发工程师

14:30 - 14:45 茶歇

14:45 - 15:30 Procedural Language In Container -- Greenplum助力数据科学计算

郭罡，Pivotal Greenplum资深研发工程师

15:30 - 16:00 DT时代探索数据到决策的最短路径

苏春园，观远数据创始人/CEO

嘉宾介绍

姚延栋

姚延栋先生现任Pivotal公司研发总监，负责 Greenplum 数据库和 SQL-on-Hadoop 产品 HAWQ 的内核研发。毕业于中科院软件所，2010 年加入 Greenplum，之前曾在Sun Microsystem 与 Symantec 系统和存储部门工作多年。

演讲内容简介

大数据热词逐渐消退；大数据项目更多落地。这种潮流之下，用户需要一个完善的系统的数据平台，而不是多个孤立的系统，以解决面临的各种各样的大数据挑战，实现数据驱动创新、数据驱动价值的闭环。新一代数据平台 Greenplum 5.0 基于开源 PostgreSQL，融合 Pivotal 数据库专家团队的持续创新，适应各种类型的部署，适应各种类型的数据源，适应各种类型的数据，提供了前所未有的数据处理和分析能力。

郭炜

郭炜先生2016年加入易观，担任易观CTO，构建易观技术团队完成易观大数据采集、平台、数据挖掘等技术架构与体系，从无到有完成易观混合云搭建、易观SDK升级并发布易观秒算实时计算平台，目前易观大数据平台日处理数据量242亿条，月活用户4.8亿。

郭炜先生毕业于北京大学，加入易观之前，曾任联想研究院大数据总监，万达电商数据部总经理，并曾在中金、IBM、Teradata公司担任大数据方向重要岗位，对大数据前沿领域研究，包括视频、智能WIFI等大数据软硬数据一体技术有独特的见解。

演讲内容简介

易观的数据量越来越多，从初始的日活用户不足千万，现在已经日活用户接近1个亿，每日数据增量也超过10Tb。除了日常的批量大数据处理、推荐、标签业务之外，越来越多的产品要支持用户的及时的复杂查询。例如，根据人群标签看APP的排名，例如根据事件条件选择步骤查询转化漏斗等，每个不同的即时查询面对的数据集合查询情况都有所不同，整体来讲可以通过Spark研发完成大部分的场景。但是全面采用Spark Core的研发代价有过高，在使用途中易观有幸在实践中和Greenplum团队共同完成了大数据Ad-hoc场景的建设，同时在后面的建设过程当中也使用到了Presto和Kylin适用于不同的查询场景和体系。目前易观的整体数据集群超过5.8Pb，其中Greenplum占用1.8Pb存储，存储率超过60%。本次分享主要分享易观使用GP的历程以及各种情况下GP适用的场景。

萧少聪

阿里云计数据库高级产品经理，主要负责RDS产品的发展规划及产品运营，PostgreSQL中国用户会2015-2017届主席。

演讲内容简介

阿里云自2015年开始提供云数据库PostgreSQL服务，并于2016年底基于Greenplum Databse提供HybridDB for PostgreSQL数据仓库服务。本主题将为大家讲解阿里云通过Greenplum Database赋能数据库产品，协助互联网行业用户形成从OLTP->OLAP->BigData全线打通的架构方案。

苏春园

苏春园先生在商务智能和数据分析领域有十五年资深经验，现任观远数据创始人/CEO，带领团队服务多家全球与中国500强企业，涵盖零售、金融、制造、电信和互联网等行业，为客户提供大数据和商务智能解决方案。在创立观远数据前，任MicroStrategy（微策略）全球高管和中国区研发总裁，领导300多人的中国与美国团队参与商务智能产品的全球发布，其负责的MicroStrategy服务器产品线每年全球客户收入超1亿美金。毕业于Carnegie Mellon University 卡内基梅隆大学（数据分析硕士）。

演讲内容简介

DT时代，数据生态和业务需求不断有新趋势和新变化，企业在如何运用数据辅助决策上也遇到新困惑和新难题，本次演讲将探讨企业在这样的环境下如何基于Greenplum进行下一代的数据分析和决策支持。从理念、方法、工具上分享观远数据新一代商务智能（BI）方案的要点和解决方案思路。

梅靖怡

梅靖怡于2016年加入美国Pivotal Data R&D, 从事Greenplum开发相关工作，2017年加入MADlib, 负责MADlib的算法实现、性能优化和持续集成。梅靖怡2014年毕业于上海交通大学安泰经济与管理学院工商管理专业，2015年取得美国卡耐基梅隆大学计算机硕士学位。先后任职于Oracle和Pivotal Data, 从事数据库开发相关工作。

演讲内容简介

Apache MADlib是Pivotal与UC Berkeley合作的一个开源机器学习库，提供了精确的数据并行实现、统计和机器学习方法对结构化和非结构化数据进行分析。MADlib提供了丰富的分析模型，包括回归分析，决策树，随机森林，贝叶斯分类，向量机，风险模型，KMEAN聚集，文本挖掘，数据校验等。 MADlib 支持Greenplum, PostgreSQL 以及 Apache HAWQ, In-Database Analytics的特性使其大大扩展了数据库的分析功能，充分利用MPP架构使其能够快速处理海量数据集。本主题将为大家介绍MADlib的基本架构，工作原理及特性，分享MADlib在互联网，金融，零售等行业的用户案例，展望In-Database Machine Learning的广阔前景。

郭罡

Paul Guo现在Pivotal北京研发中心从事软件开发工作。有超过十年的基础软件开发经验，最近三年多主要经历和兴趣是分布式存储和分布式数据库开发，在此之前一直从事Unix/Linux内核以及系统软件开发工作。Paul Guo毕业于中国科技大学（电子工程硕士）。

演讲内容简介

Python和R是数据科学家的分析利器，Greenplum的Procedural Language对Python 和R进行了良好的支持。Procedural Language、Madlib、GPText使得Greenplum用户既能享受到MPP并行数据库的性能优势，又能进行科学的数学计算。本次分享会对Greenplum即将推出的新功能展开介绍：使用容器技术进行Procedural Language计算。

点击文章底部“阅读原文”进入报名页面，期待您的参与！

本文分享自微信公众号 - Greenplum中文社区（GreenplumCommunity）。
如有侵权，请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”，欢迎正在阅读的你也加入，一起分享。