![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
业务场景用例
文章平均质量分 71
江湖侠客
这个作者很懒,什么都没留下…
展开
-
DSP广告数据系统的地域指标统计场景案例
上一篇:DSP广告数据系统的提交job到yarn运行案例1、统计各省市的数据分布情况需求:统计日志中,每个省市的数据记录条数分析:使用spark SQL进行实现,实现的结果存储到MySQL,存json文件原创 2021-06-27 16:06:18 · 280 阅读 · 1 评论 -
DSP广告数据系统的提交job到yarn运行案例
上一节广告精准投放的代码封装优化及parquet文件分区操作案例补充一点若不想分区,指定设置这个参数即可:// partitionBy 对数据按照省份进行分区 dataFrame.write.parquet(parquetOutPath)parquet压缩格式设置 // spark序列化优化参数 val sparkParams = Map[String, String]( "spark.serializer" -> cla...原创 2021-06-27 15:44:25 · 117 阅读 · 1 评论 -
广告精准投放的代码封装优化及parquet文件分区操作案例
上一节实践DSP广告数据平台的日志文件转换成parquet文件第二种方案现在主要对该工程进行代码封装优化,在将来如果使用的是spark 1.6+可是用样例类来封装数据,如下优化代码主要有:代码封装优化1、首先,编写封装创建sparkContext实例dolphin-doit01\src\main\scala\cn\sheep\dolphin\common\DolphinAppComm.scalapackage cn.sheep.dolphin.commonimport cn.s原创 2021-06-27 15:37:07 · 205 阅读 · 0 评论 -
实践DSP广告数据平台的日志文件转换成parquet文件第二种方案
上篇:实践广告精准投放的bz2数据转parquet文件场景案例这一节主要演示,将bz2日志文件转换成parquet文件的第二种方案二话不说,直接上代码dolphin-doit01\src\main\scala\cn\sheep\dolphin\etl\Bz2ParquetV2.scalapackage cn.sheep.dolphin.etlimport cn.sheep.dolphin.bean.AdLogimport cn.sheep.dolphin.utils.Fil原创 2021-06-27 15:28:28 · 159 阅读 · 1 评论 -
模拟业务数据输出
字段中主要有:账户、应用程序ID、应用版本、载体、设备ID、设备类型、事件id、ip、纬度、经度、网络类型、操作系统名称、操作系统版本、原创 2021-06-19 16:21:43 · 205 阅读 · 0 评论 -
实践广告精准投放的bz2数据转parquet文件场景案例
导读Parquet的用途(1)Parquet就是基于Google的Dremel系统的数据模型和算法实现的,可以跳过不符合条件的数据,只读取需要的数据,降低IO数据量;(2)压缩编码可以降低磁盘存储空间。由于同一列的数据类型是一样的,可以使用更高效的压缩编码(例如Run Length Encoding和Delta Encoding)进一步节约存储空间(3)由于Parquet是基于Google的Dremel系统的数据模型和算法实现的,所以只读取需要的列,支持向量运算,能够获取更好的扫描性能原创 2021-06-27 12:26:00 · 222 阅读 · 0 评论