Spark
文章平均质量分 72
SPlus_SS
这个作者很懒,什么都没留下…
展开
-
记录一次系统计算逻辑优化
由于项目二期增加了一个维度,做了代码重构由于一期设计仓促,有一些设计的不合理的地方,比如: public_ sku_site_data(sku网站数据)表大数据推送的表将数据逻辑有许多不同的服装,GB的网站信息合在了一个表中推送过来其中服装的网站数据不到site_code,terminal,stock_code维度 故这三个字段都是" "值(源数据就是如此)下面的价格如同字段注释所示,有些数据只有GB有,有些只有服装有,后来加入的产品等级也是只有服装的数据才有但是由于GB相关的指标需要到仓库维度原创 2021-01-21 23:28:05 · 224 阅读 · 0 评论 -
使用Spark跨集群同步Hive数据
本文适用有入门spark基础的同学,一些最基础知识不再赘述通过阅读本文即可掌握使用Spark跨集群同步Hive数据的技巧!众所周知,业界比较成熟的同步数据工具是Sqoop,它是连接关系型数据库和Hadoop的桥梁比较常用的场景是从MySQL等RDB同步到Hive、Hbase或者将Hive、Hbase的数据导出到MySQL但是在天池技术选型时选用了用Spark来从大数据集群同步数据到大禹集群下面来比较一下这两种方式:①Sqoop使用配置化,Spark需要代码开发学习成本上使用Spark稍微高一些原创 2021-01-21 19:43:01 · 1327 阅读 · 0 评论 -
Spark抽取MySQL分表优化
从MySQL抽取Hive表XXX ,MySQL中有128张分表原抽数逻辑SQL为SELECTCONCAT(good_sn, “#”, wh_code) AS goodsId,MAX(ship_price/exchange_rate) AS shipPrice,MAX(ship_fee/exchange_rate) AS shipFee,price_type AS shipTypepipeline_codeFROMgoods_price_factor_s_${order}WHERE sit原创 2021-01-21 19:38:05 · 414 阅读 · 0 评论 -
Spark抽取多分表数据性能
使用spark.read.jdbc读取表后注册成临时表,再将表UNION ALL起来可不形成宽依赖,将多张分表合并成总表的job放在一个stage中从而可以根据任务启用资源的调整(主要是core数)将从MySQL抽数的任务并行处理下图为任务执行的的DAG图,可以看到128个分表虽然在代码中是循环读,但是实际上分成了1个stage中的128个task并行执行下面为验证:由于测试环境资源有限,分别进行了如下三种资源调整测试效率(也只是观察趋势,具体生产环境配置还需要测试调整)num-executor原创 2021-01-21 19:30:10 · 403 阅读 · 0 评论 -
SPark关于缓存&坑
SPark关于缓存&坑SPark基本概念Spark执行流程Spark运行架构的特点:几个名词解释功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowc...原创 2021-01-21 19:21:18 · 937 阅读 · 2 评论