【CCTC 2017】Spark技术峰会：苏宁、微博、七牛、宜人贷、阿里、Databricks等实践案例精讲...

最新推荐文章于 2020-06-30 19:21:00 发布

付江

最新推荐文章于 2020-06-30 19:21:00 发布

阅读量858

点赞数

文章标签： CCTC Spark

本文链接：https://blog.csdn.net/java060515/article/details/80129591

版权

2017年5月18-19日，CSDN主办的中国云计算技术大会（CCTC）在北京朝阳门悠唐皇冠假日酒店盛装启航。本次会议践行“云先行，智未来”的主题，在Keynote环节之外精心策划了微服务、人工智能、云核心三大论坛及Spark、Container、区块链、大数据四大技术峰会，众多技术社区骨干、典型行业案例代表齐聚京师，解读本年度国内外云计算技术发展最新趋势，深度剖析云计算与大数据核心技术和架构，聚焦云计算技术在金融、电商、制造、能源等垂直领域的深度实践和应用，全程高能不断档，干货满满精彩纷呈。

图片描述

七牛云技术总监陈超

CCTC第二天，Spark技术峰会拉开序幕。活动由七牛云技术总监陈超担任主持人，陈超简单回顾了四年以来Spark峰会的历程，伴随着Spark在国内落地项目越来越多，今年峰会议题征集期间收到了超过100份Spark主题的演讲申请，经过主委会审核从其中挑选了七位精英讲师和经典案例内容，包括苏宁云商、新浪微博、华为、七牛云、阿里巴巴、宜人贷、Databricks的讲师将在现场带来精彩分享。

苏宁云商IT总部高级技术经理陈泽：Spark App自动化故障分析与诊断

图片描述

苏宁云商IT总部高级技术经理陈泽

苏宁云商IT总部高级技术经理陈泽分享了主题为《Spark App自动化故障分析与诊断》的演讲。陈泽首先谈到了苏宁大数据平台架构，分为离线计算、流式计算、OLAP引擎三部分，基于Spark的应用在其中用得越来越广泛，目前集群规模是Yarn集群700节点，任务规模5W任务/天，处理的数据量300TB/天。陈泽重点讲解了基于Spark构建的CBT调度平台、SSMP平台和机器学习平台。据介绍，苏宁Spark平台化过程中曾遇到不少问题。在业务层面，对Spark SQL的认识不够，导致过度的依赖Spark RDD层面的API；对内存计算存在误解，不合理使用Cache机制，导致资源浪费；在平台方面，未提供数据来指导用户去优化Executor个数以及内存参数，导致平台资源利用率过低等问题。

为此，苏宁研发了Spark App自动化分析和故障诊断系统——华佗，通过将运维的经验和知识工具化，并配合指标和事件两种信息，来对任务进行分析和故障诊断。华佗目前提供的分析和诊断能力包括了资源、性能、故障三个维度，陈泽详细介绍了每种能力的最新进展。

新浪微博高级算法工程师吴磊：基于Spark的大规模机器学习在微博的应用

图片描述

新浪微博高级算法工程师吴磊

新浪微博高级算法工程师吴磊分享了题为《基于Spark的大规模机器学习在微博的应用》演讲。他表示，微博目前在大规模机器学习技术方面面临的主要挑战是数据特征类别多、维度大、算法模型多样化、参数矩阵巨大导致大量内存和网络开销。因此，微博研发团队开发了基于Spark参数服务器，采用异步随机梯度下降算法，主要处理原则是将数据分块、分块数据拉取参数、计算分块数据梯度、将梯度更新到参数服务器。在过程中不断对参数服务器的Batch Size、PS server count、Sparse、Partitioning、Spark memory tuning等模块性能优化。在解决微博机器学习问题过程，他们开发了名为weiflow的统一计算框架。吴磊逐一解释了weiflow的实现过程，通过这一框架，微博团队业务开发效率、业务代码贡献、执行性能、模型性能等方面都得到了大幅提升。

华为大数据设计部部长、Apache Carbondata PMC Committer 李昆：CarbonData大数据高性能交互式分析实践

图片描述

华为大数据设计部部长、Apache Carbondata PMC Committer 李昆

华为大数据设计部部长、Apache Carbondata PMC Committer 李昆分享了题为《CarbonData大数据高性能交互式分析实践》的演讲。他首先分析了企业在构建数据平台时面临的挑战，几种方案无论是NoSQL，并行，搜索引擎，或者SQL on Hadoop，都只是针对某个场景设计，只能解决一部分问题。架构师在系统设计时不得不做出妥协，或者只满足部分应用；或者复制多份数据，满足所有应用。而CarbonData的目标：一份数据满足多种业务需求，与大数据生态无缝集成。

CarbonData在2016年6月进入Apache孵化器，2016年9月有了第一个生产系统部署，到今年4月已成为Apache顶级项目。现在最新的版本是1.1.0，可访问CarbonData的计算引擎是Spark、Presto、Hive、Flink。目前华为、美团、上汽、hulu等公司都有在生产系统部署CarbonData。李昆详细解释了CarbonData的几个重要技术优势。查询方面：两级索引，减少IO，适合ad-hoc查询，任意维度组合查询场景；延迟解码，向量化处理：适合全表扫描、汇总分析场景；数据管理方面：增量入库，多级排序可调，由用户权衡入库时间和查询性能，增量更新，批量合并，支持快速更新事实表或维表，闲时做Compaction合并；大规模方面：计算与存储分离，支持从GB到PB大规模数据，万亿数据秒级响应；部署方面：Hadoop Native格式，与大数据生态无缝集成，利用已有Hadoop集群资产。

七牛云高级大数据工程师赵宏尧：基于Spark的流式处理引擎在Pandora大数据产品中的应用

图片描述

七牛云高级大数据工程师赵宏尧

七牛云高级大数据工程师赵宏尧分享了题为《基于Spark的流式处理引擎在Pandora大数据产品中的应用》的演讲。据悉，Pandora目前的数据处理规模已达到了每分钟实时写入的数据量达到数百GB，每分钟实时写入的数据条目达到数十亿。赵宏尧介绍了Pandora核心组件——计算平台架构，包括实时任务和离线任务调度管理平台、资源管理平台（YARN,Mesos,自研容器云平台）及Spark组件。他重点讲解了流处理技术服务化需要考虑的两个问题：用户的使用接口，技术细节的屏蔽。用户接口他建议schema，具有数据流健壮、存储计算高效、数据类型丰富等特点。在技术细节处理上，Spark Streaming在生产上的常见问题有运行状态管理和监控、数据丢失、数据消费延迟、聚合操作处理等，赵宏尧给出了对应的解决方案。

宜人贷数据科学家王婷：金融反欺诈场景下的Spark实践

图片描述

宜人贷数据科学家王婷

宜人贷数据科学家王婷分享了主题为《金融反欺诈场景下的Spark实践》演讲。王婷首先介绍了金融科技企业所面临的欺诈风险，包括用户还款能力、伪冒申请和欺诈交易等，传统方法在解决这类问题时往往效率低下。她认为反欺诈也是一种机器学习过程。宜信基于海量数据构建了金融知识图谱——FinGraph，具有应用场景、系统支持、数据整合三个层面。王婷重点讲解了反欺诈场景下Spark三板斧：Spark Streaming用SDK实时数据处理；Spark GraphX用于图挖掘特征工程和挖掘欺诈组团；Spark Mllib用于特征工程、简单机器学习训练。王婷重点讲解了宜人贷开发的基于Spark架构的实时反欺诈平台，包括用户层、工具层、模型层、数据处理层、存储层和数据层，通过对不同事件得出实时欺诈评分。此外，宜人贷还通过引入反欺诈调查员，结合图谱挖掘，提升反馈效率，快速发现欺诈团伙。

阿里巴巴技术专家宋军：SparkSQL在ETL中的应用

图片描述

阿里巴巴技术专家宋军

阿里巴巴技术专家宋军分享了题为《SparkSQL在ETL中的应用》的演讲。宋军表示，ETL主要有三个步骤：抽取、转换、加载。首先读取数据源，做清洗加工，整合处理，最终把这些数据存储到目标存储里，对ETL要求满足简单易用、支持多种数据源、支持容错处理、丰富的算子、复杂数据类型、计算快等多个因素。如何实现以上目标，宋军从DataSource、丰富的算子、Hive兼容、性能、云上ETL 五个方面作出解读。

Databricks软件工程师范文臣：Deep Dive: How Spark Uses Memory

图片描述

Databricks软件工程师范文臣

Databricks软件工程师范文臣分享了题为《Deep Dive: How Spark Uses Memory》演讲。范文臣的演讲主要包括三方面的内容：如何看待Spark集群下的内存管理，如何处理内存竞争的问题，Spark对内存使用的优化手段及展望。他重点讲解了在实践中常会见到的内存竞争问题，当Storage和Execution竞争的时候优先考虑Execution，考量优先把Storage内存刷掉。此外，还有Tasks之间的分配，不要静态提前分配好，而是通过运行时动态处理竞争情况，并且通过合作的方式让内存使用者合作，让大家尽量通过公平的算法把内存竞争的问题解决。

更多精彩内容，请关注图文专题：CCTC 2017中国云计算技术大会，微博：@CSDN云计算，订阅 CSDN 官方微信公众号（ID：CSDNnews），即时获取大会动态。