![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
业务场景用例
文章平均质量分 71
江湖侠客
这个作者很懒,什么都没留下…
展开
-
DSP广告数据系统的地域指标统计场景案例
上一篇:DSP广告数据系统的提交job到yarn运行案例 1、统计各省市的数据分布情况 需求:统计日志中,每个省市的数据记录条数 分析:使用spark SQL进行实现,实现的结果存储到MySQL,存json文件原创 2021-06-27 16:06:18 · 269 阅读 · 1 评论 -
DSP广告数据系统的提交job到yarn运行案例
上一节广告精准投放的代码封装优化及parquet文件分区操作案例 补充一点 若不想分区,指定设置这个参数即可: // partitionBy 对数据按照省份进行分区 dataFrame.write.parquet(parquetOutPath) parquet压缩格式设置 // spark序列化优化参数 val sparkParams = Map[String, String]( "spark.serializer" -> cla...原创 2021-06-27 15:44:25 · 114 阅读 · 1 评论 -
广告精准投放的代码封装优化及parquet文件分区操作案例
上一节实践DSP广告数据平台的日志文件转换成parquet文件第二种方案 现在主要对该工程进行代码封装优化,在将来如果使用的是spark 1.6+可是用样例类来封装数据,如下优化代码主要有: 代码封装优化 1、首先,编写封装创建sparkContext实例 dolphin-doit01\src\main\scala\cn\sheep\dolphin\common\DolphinAppComm.scala package cn.sheep.dolphin.common import cn.s原创 2021-06-27 15:37:07 · 203 阅读 · 0 评论 -
实践DSP广告数据平台的日志文件转换成parquet文件第二种方案
上篇:实践广告精准投放的bz2数据转parquet文件场景案例 这一节主要演示,将bz2日志文件转换成parquet文件的第二种方案 二话不说,直接上代码 dolphin-doit01\src\main\scala\cn\sheep\dolphin\etl\Bz2ParquetV2.scala package cn.sheep.dolphin.etl import cn.sheep.dolphin.bean.AdLog import cn.sheep.dolphin.utils.Fil原创 2021-06-27 15:28:28 · 158 阅读 · 1 评论 -
模拟业务数据输出
字段中主要有: 账户、应用程序ID、应用版本、载体、设备ID、设备类型、事件id、ip、纬度、经度、网络类型、操作系统名称、操作系统版本、原创 2021-06-19 16:21:43 · 200 阅读 · 0 评论 -
实践广告精准投放的bz2数据转parquet文件场景案例
导读Parquet的用途 (1)Parquet就是基于Google的Dremel系统的数据模型和算法实现的,可以跳过不符合条件的数据,只读取需要的数据,降低IO数据量; (2)压缩编码可以降低磁盘存储空间。由于同一列的数据类型是一样的,可以使用更高效的压缩编码(例如Run Length Encoding和Delta Encoding)进一步节约存储空间 (3)由于Parquet是基于Google的Dremel系统的数据模型和算法实现的,所以只读取需要的列,支持向量运算,能够获取更好的扫描性能原创 2021-06-27 12:26:00 · 218 阅读 · 0 评论