Spark在爱奇艺的应用实践

最新推荐文章于 2024-04-06 16:33:26 发布

AllenGd

最新推荐文章于 2024-04-06 16:33:26 发布

阅读量1k

点赞数 1

分类专栏： spark 文章标签：大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Allenzyg/article/details/126745552

版权

spark 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

Spark生态@爱奇艺

• 爱奇艺

– 秉承“悦享品质”的品牌理念，提供更多、更好的视频

– 2010年4月上线

– 2013年5月与PPS合并

– 月度独立访问用户4+亿（3月份数据）

– 2014年1月以来，日均覆盖、月度覆盖、月度时长以及人均月度时长一直排名第一

• 爱奇艺大数据生态

• 爱奇艺Spark生态

– 版本：从0.7.3开始，0.8.X, 0.9.X, 1.0, 1.1…不断跟踪升级

– 部署环境：虚机 + 物理机

– 部署方式：Standalone、Spark on YARN、Spark on Mesos

– Spark组件：通用Spark job， Spark MLlib，Spark Streaming

– 语言：Scala & Java & Python

业务实践

• 日志分析

– 各种日志(用户访问，CDN)的数据分析

• 推荐

– 推荐模型训练

– Spark MLlib Alternating Least Squares(ALS) Algorithm

– 输入数据300+G，运行20分钟

– 模型提供给Hadoop，Storm进行批处理和实时数据预测

– Spark on YARN

• 用户行为分析

– 用户画像、分类

– iQIYI Logistic Regression (LR) Algorithm

– 输入数据100G左右，1400W+ Features

– 迭代1000次左右

– 单机运行（20G左右）2小时或更长，Spark集群10分钟左右

– Spark Standalone

问题 & 经验

1、 Spark on Mesos

– Mesos Master 内存泄漏

– 症状：spark.akka.framesize = 128MB, Mesos Master内存飙涨，最终crash

– 原因：Executor的执行结果会通过statusUpdate传递给Mesos Master，且没有及时清理

– 办法：

• 降低spark.akka.framesize

– 可能会导致Driver卡住，或者OOM

• MESOS-1746

• SPARK-3334

2、Spark on YARN

– Memory Overhead陷阱

– 症状：Executor的内存没达到上限前被kill

– 原因：Spark Application使用了非JVM的内存，比如，矩阵计算的库调用了native library，分配了JVM堆外内存

– 办法：调高spark.yarn.executor.memoryOverhead

• 默认384MB，建议1024MB，视情况而定

– 调度问题

– 症状：当有较多MapReduce job，scheduler调度压力增大的时候，Spark job会被kill掉

– 原因：YARN AM Containers会被抢占

– 办法：升级YARN集群，或增加如下Patch

• YARN-614

• YARN-2074

• YARN-1957

3、Standalone Spark

– Secure HDFS 支持

– 症状：不能访问开启了Kerberos的Hadoop集群数据

– 原因：Executor启动后，总是创建一个新的UGI

– 限制：不支持一个集群多个用户同时运行

4、Spark MLlib

– LR改进

– Spark 1.X前的LR采用梯度下降法，收敛很慢

– 用牛顿法重新实现了LR，收敛速度提升10倍

– 可视化的LR任务提交

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

AllenGd

CSDN认证博客专家 CSDN认证企业博客

码龄7年

大数据领域优质创作者

254: 原创

2351: 周排名

6661: 总排名

65万+: 访问

: 等级

5789: 积分

4万+: 粉丝

657: 获赞

170: 评论

2443: 收藏

私信

关注

热门文章

分类专栏

最新评论

MySQL表导入到Parquet格式HDFS文件，同步到Hive的Parquet表
酸了豆角: [code=plain] sqoop import \ --connect jdbc:mysql://IP:3306/test \ --username 用户名 \ --password 密码 \ --table base_category \ --target-dir '/hdfs上的路径/base_category' \ --delete-target-dir \ --m 1 \ --fields-terminated-by "\t" \ --as-parquetfile -m 1 [/code] parquet不是不支持fields-terminated-by吗
CDH6.3.1安装
A心有千千结: 解决了，踩了很多坑，https://blog.csdn.net/liurui_wuhan/article/details/141201498
CDH6.3.1安装
AllenGd: 你查看一下日志文件，看看详细的报错信息。检查一下端口是否被占用、防火墙之类的
CDH6.3.1安装
A心有千千结: 到了这部就起不来：启动cloudera-scm-server:[root@cdh-aliyun01 cloudera-scm-server]# systemctl status cloudera-scm-server.service ● cloudera-scm-server.service - Cloudera CM Server Service Loaded: loaded (/usr/lib/systemd/system/cloudera-scm-server.service; enabled; vendor preset: disabled) Active: failed (Result: start-limit) since 四 2024-08-08 00:06:27 CST; 5s ago Process: 12350 ExecStart=/opt/cloudera/cm/bin/cm-server (code=exited, status=1/FAILURE) Process: 12347 ExecStartPre=/opt/cloudera/cm/bin/cm-server-pre (code=exited, status=0/SUCCESS) Main PID: 12350 (code=exited, status=1/FAILURE) 8月 08 00:06:27 cdh-aliyun01 systemd[1]: cloudera-scm-server.service: main process exited, code=exited, status=1/FAILURE 8月 08 00:06:27 cdh-aliyun01 systemd[1]: Unit cloudera-scm-server.service entered failed state. 8月 08 00:06:27 cdh-aliyun01 systemd[1]: cloudera-scm-server.service failed. 8月 08 00:06:27 cdh-aliyun01 systemd[1]: cloudera-scm-server.service holdoff time over, scheduling restart. 8月
Hive之窗口函数lag()/lead()
普通网友: 感谢大佬分享好文，学到了不少新知识，支持大佬，期待大佬持续输出优质文章！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

AllenGd 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。