当前京东数据平台用到spark 的五种方式

最新推荐文章于 2023-02-18 21:29:09 发布

dgsdaga3026010

最新推荐文章于 2023-02-18 21:29:09 发布

阅读量82

点赞数

文章标签：大数据 python shell

原文链接：http://www.cnblogs.com/TendToBigData/p/10501173.html

版权

当前京东数据平台用到spark 的五种方式

1.spark sql 数据从Hive 同步到ES
用python包装命令，使用spark-submit 提交，run_shell_cmd(spark-submit) 具体案例可以参考另外的博文

2.机器学习会用到pyspark 自带的类似kmeans 的方法做数据加载，用pypsark 写应用程序，通过shell 调

spark-submit 执行命令包装成zip 进行发布

3.再有就是机器学习用Scalaspark 打成jar 结合shell spark-submit 打包成zip 发布

4.另外一种情况把现在python sql 脚本发布到spark sql 的队列中，直接执行，相对改变较小，经过测试发现

需要对内存和core 和executor 要有较好的认知把握才能提高程序执行效率

5.最后一种情况是用Java 或是 Scala python 写 spark程序 rdd ，打成jar 发布 shell zip 包执行，这些个

变化相对较大，不太容易呈现，改写要求高，但是对提高对spark 的认识和技能掌握更有提高的空间

comment ：目前公司前四种都有用到，第一和第四条我有尝试测试，对于第2 第3 ，第5 暂时未有深度了解，

不过迫在眉睫。

转载于:https://www.cnblogs.com/TendToBigData/p/10501173.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

dgsdaga3026010

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Spark入门详解

lukabruce的博客

08-16

3万+

一 Spark概述 1 11 什么是Spark 2 Spark特点 3 Spark的用户和用途二 Spark集群安装 1 集群角色 2 机器准备 3 下载Spark安装包 4 配置SparkStandalone 5 配置Job History ServerStandalone 6 配置Spark HAStandalone 7 配置SparkYarn ...

spark dataframe写入hive、hdfs、es、oracle

weixin_53099973的博客

08-31

2314

1.写入hive的指定分区中写入数据 ResulToOra2.createTempView("tmp") spark.sql( s""" |insert overwrite table pdr.T_PSSC_TRAN_PORTRAIT_CENTER partition(dt='${sdfDay.format(date)}') select * from tmp | """.stripMargin) pr

参与评论您还未登录，请先登录后发表或查看评论

Hive数据同步到ES

weixin_42529806的博客

10-16

1345

文章目录Hive2Es需求准备工作-集群准备工作-数据Hive编码服务器部署 Hive2Es 需求将Hive的user标签数据同步到ElasticSearch 每天生成一个index 将user_id作为文档id 准备工作-集群 Hadoop集群、Hive集群、Yarn集群（用的是CDH） Spark集群（用的是CDH） ElasticSearch集群（单独部署的）准备工作-数据 Hi...

使用spark将hive数据写入elasticsearch或hbase

weixin_42188589的博客

12-19

1607

使用spark将hive数据写入elasticsearch或hbase将hive或者其他关系型数据库中的数据搬迁到es或hbase代码依赖socket入口：MyServerThread实现工具类PropertiesUtil配置文件config.properties客户端MyClient测试执行脚本将hive或者其他关系型数据库中的数据搬迁到es或hbase 需求：因为需要使用hadoop能力，所...

Spark中hive的使用(hive操作es示例)

weixin_33709590的博客

06-15

828

2019独角兽企业重金招聘Python工程师标准>>> ...

京东用了哪些大数据平台产品体系？

程序之道的博客

04-01

9687

对于京东大数据平台来说，数据产品并不是一个新鲜事物，2011年自建数据仓库上线的同时，第一款数据产品调度平台也一同上线并正式投入使用。调度平台订单交易，仓储物流等众多京东系统都会产生数据，仅日志内容每天的大小约为1TB，大量的数据如何统一汇总到数据仓库来呢?这就需要调度产品来实现数据生产。京东调度平台发展至今已经是3.0版本，每一次的更新迭代都凝聚着京东大数据平台开发工程师许许多多个日夜的...

大数据智能物流管理系统-京东青龙系统架构分析.pdf

04-16

在大数据智能物流管理系统领域，京东青龙系统是一个具有代表性的创新应用，它的系统架构分析对于理解当前智能物流的运作模式和技术支撑具有重要意义。根据标题和描述，本文将详细探讨京东青龙系统的架构特点以及其...

大数据学习笔记之Spark：Spark基础解析

大数据Spark教程

12-20

497

第1章Spark概述 spark的产生背景 spark是如何产生的，这要先送大数据说起，大数据是如何产生的？Google就是处理大数据的，网页和网页之间有很多的关联关系，为了处理排序啊这些算法，所以Google就发明了，Google就发布了三个论文，基于这三个论文的开源，实现了Hadoop、Hdfs、MapReduce、Hbase等，但是感觉好像每次MapReduce只能处理一次数据...

中台实践：数据中台构建五步法

中生代技术

11-06

5046

陈新宇罗家鹰江威邓通读完需要24分钟速读仅需 8 分钟云徙科技国内领先的数字中台服务商，以“业务数据”双中台为核心技术，驱动企业数字化转型，助力业务持续增长。公司在杭州、广州设立...

Spark：大数据实例开发教程

12-05

Spark：大数据实例开发教程

2018京东大数据技术白皮书.pdf

08-16

2018年12月7日，京东大数据与智能供应链事业部发布《2018京东大数据技术白皮书》。众所周知，大数据是企业的基本生产资料，数据信息是企业宝贵的资产。不同于其他资产，数据资产主要在企业运营过程中产生，较易获取，但要持续积累、沉淀和做好管理却并不容易，这是一项长期且系统性的工程。未经“雕琢”的数据是一组无序、混乱的数字，并不能给企业带来何种价值，从庞杂晦涩的数据中挖掘出“宝藏”充满着挑战，这需要将业务、技术与管理三者相互融合起来进行创新。京东作为一家业内领先的互联网科技公司，完整的产业链条带来了价值可沽的海量大数据，丰富的业务场景也为技术发展提供了最佳创新土壤。从认知、探索到今天京东技术上的百花齐放，我们经历了最为艰苦的创新和付出。业务的复杂与多元化，数据的飞速增长，给我们带来了很多棘手问题，但也使得大数据平台拥有更强大的能力，形成了一套完整的技术体系和有效的数据管理方法，并在实践中得以验证和夯实。京东大数据平台作为京东集团的数据中台，支撑了京东无界零售的数据运营和创新。《京东大数据技术白皮书》总结了大数据技术在京东的落地和成长，分享了大数据技术体系和管理架构，阐述了大数据在京东的典型业务应用场景，并对大数据的技术方向进行了展望，是一次对京东大数据平台的最全面解读，希望我们的实践和思考能给同行以启发和参考，我们期待和业界一起推动国内大数据产业的进步和发展。

将es数据增量导入hive(pyspark)

weixin_40981792的博客

10-15

1006

使用spark读取es的数据生成rdd # spark读取es数据得到rdd def read_rdd_from_es(ss, es_nodes, es_port, index, type, query_dic): query = {"query": {"match_all": {}}} if isinstance(query_dic, dict): query = json.dumps(query_dic) else: query = json.du

Hive同步数据到ES

07-07

1958

第一步：下载需要的jar包，必须的是es-hadoop的包 elasticsearch-hadoop-5.5.1.jar 下载地址：http://download.elastic.co/hadoop/到官网下载与ES一致的版本，比如ES版本是5.5.1，则下载elasticsearch-hadoop-5.5.1.zip第二步：如下是放到hadoop根目录的jars目录下第三步：在hive中添加jar包，ADD JAR hdfs://nmcluster/user/root/test/es_hadoop/

spark把hive数据同步到ES中（upsert）

sinat_25932097的博客

04-20

2626

spark把hive数据同步到ES中（upsert）链接es的配置 private static Map<String, String> getEsOption() { Map<String, String> map = new HashMap<>(6); map.put("es.index.auto.create", "tr...

实例讲解spark在京东智能供应链预测系统的应用

数据轨迹的专栏

02-25

3352

问题导读： 1. 京东的供应链是什么样的呢？ 2. 预测技术在京东的供应链起着什么样的作用呢？ 3. 京东整个预测系统的架构是什么样的呢？ 4. 预测系统不同层面的技术选型分别为什么？ 5. 预测系统以机器学习算法为主的核心流程是什么呢？ 6. 预测系统以时间序列为主的核心流程是什么呢？ 7. spark在预测核心层的应用是什么呢？ 1. 背景前段时间京东公开了面

京东实时大数据平台