当前京东数据平台用到spark 的五种方式

当前京东数据平台用到spark 的五种方式

1.spark sql 数据从Hive 同步到ES
  用python包装命令, 使用spark-submit 提交 ,run_shell_cmd(spark-submit) 具体案例可以参考另外的博文

2.机器学习会用到pyspark 自带的类似kmeans 的方法做数据加载 ,用pypsark 写 应用程序,通过shell 调

spark-submit 执行命令 包装成zip 进行发布

3.再有就是机器学习用Scalaspark  打成jar   结合shell spark-submit 打包成zip 发布

4.另外一种情况把现在python sql 脚本 发布到spark sql 的队列中 ,直接执行 ,相对改变较小,经过测试发现

需要对内存和core 和executor 要有较好的认知把握才能提高程序执行效率

5.最后一种情况是 用Java 或是 Scala python  写 spark程序 rdd ,打成jar 发布 shell zip 包 执行 ,这些个

变化相对较大,不太容易呈现  ,改写要求高,但是对提高对spark 的认识和技能掌握更有提高的空间


comment : 目前公司前四种都有用到 ,第一和第四条我有尝试测试 ,对于 第2 第3 ,第5 暂时未有深度了解,

不过迫在眉睫。

转载于:https://www.cnblogs.com/TendToBigData/p/10501173.html

2018年12月7日,京东大数据与智能供应链事业部发布《2018京东大数据技术白皮书》。众所周知,大数据是企业的基本生产资料,数据信息是企业宝贵的资产。不同于其他资产,数据资产主要在企业运营过程中产生,较易获取,但要持续积累、沉淀和做好管理却并不容易,这是一项长期且系统性的工程。未经“雕琢”的数据是一组无序、混乱的数字,并不能给企业带来何种价值,从庞杂晦涩的数据中挖掘出“宝藏”充满着挑战,这需要将业务、技术与管理三者相互融合起来进行创新。 京东作为一家业内领先的互联网科技公司,完整的产业链条带来了价值可沽的海量大数据,丰富的业务场景也为技术发展提供了最佳创新土壤。从认知、探索到今天京东技术上的百花齐放,我们经历了最为艰苦的创新和付出。业务的复杂与多元化,数据的飞速增长,给我们带来了很多棘手问题,但也使得大数据平台拥有更强大的能力,形成了一套完整的技术体系和有效的数据管理方法,并在实践中得以验证和夯实。 京东大数据平台作为京东集团的数据中台,支撑了京东无界零售的数据运营和创新。《京东大数据技术白皮书》总结了大数据技术在京东的落地和成长,分享了大数据技术体系和管理架构,阐述了大数据京东的典型业务应用场景,并对大数据的技术方向进行了展望,是一次对京东大数据平台的最全面解读,希望我们的实践和思考能给同行以启发和参考,我们期待和业界一起推动国内大数据产业的进步和发展。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值