数据科学&高级分析 (Data science & advanced analytics)

最新推荐文章于 2024-05-14 09:53:34 发布

ljtyxl

最新推荐文章于 2024-05-14 09:53:34 发布

阅读量1k

点赞数

分类专栏：推荐

推荐专栏收录该内容

22 篇文章 1 订阅

订阅专栏

11:15–11:55 Friday, 2017-07-14

使用R和Apache Spark处理大规模数据 (Scaling R faster and larger using Apache Spark)

地点：多功能厅5B＋C（Function Room 5B+C)观众水平 (Level): 中级 (Intermediate)

Xiaoyong Zhu (Microsoft)

平均得分：:

(5.00, 1 次得分)

R is a popular data science tool for data analysis. However, it has many drawbacks, such as its memory utilization and single-thread design, that limit its usage for big data analysis. Xiaoyong Zhu explains how to use R to analyze terabytes of data. 了解更多信息.

13:10–13:50 Friday, 2017-07-14

Fregata：在Spark上支持万亿维模型的机器学习算法库(Fregata: Machine learning algorithm libraries for supporting trillion-dimensional model on Spark)

地点：多功能厅5B＋C（Function Room 5B+C)观众水平 (Level): Intermediate

张夏天 (TalkingData)

平均得分：:

(5.00, 1 次得分)

TalkingData的一些核心业务能力如Lookalike十分依赖大规模机器学习的能力，我们发现现有的大规模机器学习技术都不能很好的满足我们的需要。因为我们需要支持大规模数据的高速，稳定，无需调参的机器学习算法，而这是目前的一些主流平台和工具无法提供的能力。为此我们在算法和系统方面做了一些研究，取得了一些成果。我们开源的Fregata机器学习算法库完全基于Spark标准接口，在Logisti Regression, Softmax算法上能够做到无需调参，高速，支持万亿维度的模型。Fregata Logistic Regression算法，在消耗大约2-4台服务器的机器资源，对于5.1亿条，1万亿维度的训练数据，可以在15分钟内完成训练。我们在本次演讲中将介绍Fregata在算法上和系统方面的一些工作。了解更多信息.

13:10–13:50 Friday, 2017-07-14

数据驱动企业增长 (Data-driven business growth)

地点：多功能厅6A+B（Function Room 6A+B)观众水平 (Level): 高级 (Advanced)

ximeng zhang (GrowingIO)

平均得分：:

(5.00, 1 次得分)

当流量红利渐消，数据驱动用户和收入增长成为新的核心；用数据驱动决策，而不是靠拍脑袋；数据分析究竟有哪些魅力？如何帮助企业创造巨大的商业价值，如何令公司全员做到数据决策；硅谷最前沿的方法论、工具、技术，最前沿的产品理念有哪些？了解更多信息.

14:50–15:30 Friday, 2017-07-14

使用Spark/BigDL高级机器学习实现寿险业务再发现 (Reimplement life insurance services using Spark and BigDL advanced machine learning)

地点：报告厅（Auditorium)观众水平 (Level): 中级 (Intermediate)

王玮 (中国人寿), Qinyan XU (中国人寿), 顾佳盛 (中国人寿),Pengfei Yue (Intel), Binggang Wo (Cloudera)

平均得分：:

(3.33, 3 次得分)

中国人寿多年来积累了大量数据，如何深度挖掘数据的价值，用于业务推动、风险管理、客户服务等领域，是我们数据部门的主要目标。我们将介绍中国人寿如何使用Spark以及Spark上的深度学习库BigDL构建针对保险业务场景的高级分析应用。我们尝试了多种前沿的高级机器学习和深度学习技术，我们将分享我们的机器学习系统的架构，应用构建的流程，以及从中吸取到的经验和教训。了解更多信息.

14:50–15:30 Friday, 2017-07-14

使用开源人工智能和机器学习工具训练现实世界的信用模型（Training a real-world credit model using open source artificial intelligence and machine learning tools）

地点：多功能厅8A+8B（Function Room 8A+8B)观众水平 (Level): Beginner

Michael Li (The Data Incubator)

平均得分：:

(3.00, 1 次得分)

Michael Li demonstrates how to iteratively train and refine a simple yet robust credit model for loan-default prediction, based on real-world loan performance data using 100% open source machine learning and artificial intelligence tools. The data is based on US$26 billion in loans issued over 10 years. 了解更多信息.

16:20–17:00 Friday, 2017-07-14

从LR到DNN点击率预估系统的进化 (The evolution of CTR prediction systems, from LR to DNN)

地点：报告厅（Auditorium)观众水平 (Level): 中级 (Intermediate)

吴炜 (万达网络研究院)

广告点击率(ctr)预估的是一个热点问题,从事计算广告的公司一般都有自己的ctr系统,如何稳定可控地改进点击率预估系统,数据,架构,算法这三方面在不同的时间点要做什么是我这次想要分享的主题.通过回顾一个点击率预估系统是如何从最初的单纯的ETL+LR的形式逐步演变为包括模型在线训练,自动baddit,自动大规模特征探索的成熟在线系统.着重介绍在演化的几个关键节点上基于当时情况选择那个技术方向的思考过程,相当于结合ML&DL的知识体系和最近2年的发展,以业内几个比较知名的应用场景为线索,以几个关键节点(千人千面的上下线,双11的逐年演化)为例子来介绍大规模机器学习，分布式最优化的相关知识点,为参会者在面对在具体业务中遇到ML,DL相关问题如何做选型提供一份历史案例的参考了解更多信息.

13:10–13:50 Saturday, 2017-07-15

多视图建模与半监督学习：应用于海量用户数据挖掘与行为分析 (Multiview modeling and semisupervised learning applied to massive user data mining and behavior analysis)

地点：多功能厅5B＋C（Function Room 5B+C)观众水平 (Level): 中级 (Intermediate)

杨帆 (Lenovo)

平均得分：:

(4.67, 3 次得分)

在无法直接收集个人信息的情况下，企业需要根据用户行为数据，来预测用户的特定属性（如性别、职业、学历、购买力、年龄以及其它个人生命周期的状态等）。（目标）一些有监督机器学习算法被用来实现这一目标，但是，面对数千万甚至上亿的海量用户、数百亿甚至更多的行为数据，标注量需要达到一定规模，才能保障机器学习的效果，而为了获得标注数据，是成本非常巨大的工作。（难点）在实践中，我们通过多个角度对用户进行建模，构造不同的用户数据视图，在每个视图下选择合适的机器学习算法，应用cotraining半监督学习算法，通过多个数据视图机器学习算法的协同训练（cotraining)，在使用非常少量的标注数据的情况下，就能在用户属性预测方面达到良好的效果。（方法）了解更多信息.

14:50–15:30 Saturday, 2017-07-15

大规模机器学习在PayPal风险控制部门的实践 (Large-scale machine learning in PayPal’s Risk Management department）

地点：紫金大厅B（Grand Hall B)观众水平 (Level): 中级 ()

Pengshan Zhang (PayPal Shanghai)

PayPal风险控制部门一直致力于利用基于大数据的机器学习的模型检测欺诈交易以及欺诈用户。本次演讲主要分享PayPal风险控制部门内部如何利用Hadoop/YARN实现分布式的逻辑回归、神经网络以及梯度提升树等机器学习算法，以及如何针对不同的算法做特征工程，构建端到端的机器学习管道。最后分享如何将这些算法组合起来提升模型的性能和稳定性。了解更多信息.

ljtyxl

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
数据科学&高级分析 (Data science & advanced analytics)

11:15–11:55 Friday, 2017-07-14使用R和Apache Spark处理大规模数据 (Scaling R faster and larger using Apache Spark)地点：多功能厅5B＋C（Function Room 5B+C)观众水平 (Level): 中级 (Intermediate)Xiaoyong Zhu(Microsoft)平均得...
复制链接

扫一扫

专栏目录