![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
scala
LanyXP
这个作者很懒,什么都没留下…
展开
-
SparkSql实现多个Excel文件(.csv)合并去重操作(亲测有效)
a.业务需求 公司最近随着业务量的剧增,每天会有新的数据从公司服务器采集上来,公司大数据部门ETL组会每天清洗这些数据然后 生成一堆Excel文件(.csv)结尾,单个Excel文件不会出现重复的数据,总的数据量大概在1000万条,平均单个Excel数据量在40~50 万条。但是根据业务部门的指示想最终把这些Excel文件再做合并处理(按照某一属性如公司名称) 生成唯一一个Excel(.csv)...原创 2019-09-02 18:34:08 · 2538 阅读 · 0 评论 -
Spark通过自定义InputFormat读取HDFS文件实现稍微复杂的业务场景
业务场景 Spark根据InputFormat可以知道如何读取文件 默认根据一行来读取在用户没在按照指定的换行符情况下是按照空格来区分的 但是在一些特定的情况下spark默认的InputFormat就不太管用了 最近小编在公司的一个需求中就遇到了下面的问题 大数据部分ETL每天会清洗数据成一个json字符串写到HDFS文件中写到文件格式如下 {"queryType":"BASIC","se...转载 2019-09-10 17:49:34 · 1151 阅读 · 0 评论