Spark_轨迹大数据
本专栏功能:
1、2021.06-2024-0306之前的开发内容
2、自己使用Spark开发部分心得
3、部分开发技巧代码
Matrix70
永远少年
展开
-
轨迹平滑算法_参考资料
python或者scala都行。原创 2024-02-02 10:25:26 · 151 阅读 · 0 评论 -
航迹rh参考资料
第六部分:什么是轨迹级融合(或轨迹融合)?_哔哩哔哩_bilibili第五章轨迹规划 - 5.5 轨迹融合Blend - 知乎第十一讲航迹融合.ppt【一等奖解题思路】基于雷达数据的航迹实时关联与轨迹融合任务赛题 - 知乎原创 2024-01-17 16:07:48 · 396 阅读 · 0 评论 -
Spark数据倾斜_产生原因及定位处理办法_生产环境
在Spark作业中,如果存在可能导致数据倾斜的key,可以考虑将这个key进行过滤,滤除可能导致数据倾斜的数据,从而在Spark作业中避免数据倾斜。在最近的项目中,历史和实时数据进行关联平滑时出现了数据倾斜,产生了笛卡尔积,具体现象如下:运行内存175GB,核数64,运行代码时,查看SparkUI界面的active jobs ,数据输入是1G,成功的stage为0,一直是0/120,由此,通过排查,的确发生笛卡尔积。原创 2023-11-16 09:46:36 · 782 阅读 · 0 评论 -
轨迹分段处理思路
需id,lon,lat,time,v,a,heigh,deep。数据预处理,空值处理,时间处理,异常点处理,轨迹单点处理。轨迹分段,速度、加速度,高度、深度阈值设置;原创 2023-10-31 22:14:14 · 186 阅读 · 0 评论 -
Spark开发_简单DataFrame判空赋值逻辑
Spark开发_简单DataFrame判空赋值逻辑。原创 2024-02-02 16:13:57 · 136 阅读 · 0 评论 -
生产环境_Spark接收传入的sql并替换sql中的表名与解析_非常NB
本文将介绍如何使用Apache Spark在大数据环境中,将数据库数据转换为DataFrame并进行查询。主要内容涵盖了从数据库获取数据、将数据转换为DataFrame、创建临时视图、展示数据、构造SQL查询语句,以及使用正则表达式和Spark SQL执行最终查询等步骤。该代码具有高度的通用性,可以适配多种数据库,如HBase和MySQL。原创 2024-02-01 10:22:41 · 531 阅读 · 0 评论 -
生产环境_Spark找出两DataFrame之间的差集(技巧)
在生产作业中,经常在工作流中遇到前后两DataFrame的数据缺失,比如df1为410条,下一个节点的df2就变成409条了,用眼睛看很费劲,因此不得不做一个差集。原创 2024-01-27 19:41:39 · 254 阅读 · 0 评论 -
轨迹大数据分析:革命性的地理空间分析与Apache Spark:处理空间不连续的点数据
本文将介绍如何使用Apache Spark对地理空间数据进行处理。我们将以实际代码示例展示如何解决点数据中由于跨越180度经线而产生的突变问题。通过分析连续点之间的经度差异,并巧妙地插值生成新数据,我们将展示如何稳健地处理这类特殊情况。这个技术不仅可以应用于航行和地理信息系统等领域,同时也为大规模地理数据处理提供了新的思路和方法。原创 2023-12-22 20:21:47 · 484 阅读 · 0 评论 -
生产环境_Apache Spark技术大牛的实践:使用DataFrame API计算唯一值数量并展示技术(属性报告)
可以使用下面代码运行一下看看结果,听有趣的,我写的代码中计算了不同字段的值的数量,并生成了一个显示字符串来描述这些数据的分布情况然后使用"details"列限制显示的行数,以便更方便地查看和分析数据,其实是生产环境中的应用,为了不涉及敏感信息,进行了数据和字段的脱敏处理。给前端提供算法集成好的数据,对算法处理后的数据进行进一步删选展示。原创 2023-12-16 17:10:21 · 413 阅读 · 0 评论 -
生产环境_Spark解析JSON字符串并插入到MySQL数据库
随后使用SparkSQL将这条数据写入mysql中特定的库表,其实还可以做一个优化的,比如入库前先判断有没有这条数据,如果有则不插入,如果没有就插入,优化这部分我没做,有时间在改吧。我需要将一段从前端传过来的JSON字符串进行解析,并从中提取出所需的数据,然后将这些数据插入到MySQL数据库中。库解析JSON数据将上面的json串解析,使用。注意的是,只要配置好mysql的配置即可。spark代码会使用。最近开发有一个需求,是这样的。json格式样例如下。原创 2023-12-16 15:37:11 · 693 阅读 · 0 评论 -
生产环境_Spark处理汽车行驶轨迹中跨越本初子午线的经度列
始处理轨迹数据跨越本初子午线的问题原创 2023-12-15 10:45:28 · 724 阅读 · 0 评论 -
生产环境_使用Scala语言_Spark编写灵活的SQL查询生成器
使用Scala编写灵活的SQL查询生成器原创 2023-12-14 16:56:41 · 419 阅读 · 0 评论 -
spark将dataframe中的字段转成一列
【代码】spark将dataframe中的字段转成一列。原创 2023-12-08 16:25:48 · 415 阅读 · 0 评论 -
生产环境_从数据到层级结构JSON:使用Spark构建多层次树形数据_父子关系生成
文将介绍如何使用Apache Spark以及JSON4S库,将CSV数据转换为层级结构的JSON格式。通过分析国家、性别、种族和民族等信息,我们将展示如何构建层级结构的节点,并将其转换为易于理解和处理的JSON格式。这篇博客将帮助读者了解如何利用Spark强大的数据处理功能,以及在JSON处理方面的最佳实践。原创 2023-11-30 17:50:36 · 511 阅读 · 0 评论 -
生产环境_sql获spark将课程与对应的选课人员以逗号分隔的形式存储
将课程和人员列进行分组,然后将人员列聚合为逗号分隔的字符串。原创 2023-11-28 16:10:44 · 550 阅读 · 0 评论 -
生产环境_移动目标轨迹压缩应用和算法处理-Douglas-Peucker轨迹压缩算法
即在地图应用中,对GPS轨迹数据进行压缩,减少数据传输和存储开销,因为轨迹点太频繁了,占用空间太大,运行节点太慢了,经过小组讨论需要上这个算法,。原创 2023-11-21 12:00:34 · 420 阅读 · 0 评论 -
数据处理生产环境_获取当前日期的前一天日期
现在我每天接入实时数据,保存在库里,时间为最近时间的两天数据,比如今天是20号,数据库里存的数据就是19号,20号的数据,现在我要进行跑批任务,将数据库里的19号的数据离线跑批进行部分逻辑处理后,增加的存入原创 2023-11-21 11:00:08 · 764 阅读 · 0 评论 -
数据处理生产环境_利用MurmurHash3算法在Spark和Scala中生成随机颜色
生产环境中的前端轨迹是没有颜色的,我这边作为数据工程的应用层,必须支撑给不同的编号 数据一个随机颜色,如果数据中编号一样了,也要支持同一颜色目标是同一种随时颜色。此代码定义了一个函数,使用MurmurHash3算法根据输入的种子生成随机颜色。代码主要功能是使用自定义的函数(UDF)将这个函数应用到DataFrame上,并添加一个新列“c1”来显示生成的随机颜色。效果非常好用。原创 2023-11-17 14:57:24 · 1187 阅读 · 0 评论 -
数据处理生产环境_利用Scala和Spark对DataFrame进行复杂数据操作__withClumn,split及SubString_将包含两列的DataFrame进行转换和拆分
包含两列的DataFrame进行转换和拆分,我想实现的是将dataframe表table1中的字段b1与c1的内容使用下划线_连接起来列的名字为d1,比如比如学习_1,睡觉_2,吃饭_3,这是我的第一个需求;随后我想保留的是dataframe表table1中的字段d1中的数据比如学习_1,睡觉_2,吃饭_3,中的数据中_前后的数据分别作为两列e1,f1,原创 2023-11-17 00:18:33 · 337 阅读 · 0 评论 -
Spark处理方法_提取文件名中的时间
本文主要使用spark开发中遇到一个解析文件时间问题,目前解决了解析出最后一个文件时间添加到读取所有outrdd的dataframe列中,后期优化的话,要将每一个文件名解析出来的时间放到读取的文件内容中。原创 2023-11-10 09:15:24 · 538 阅读 · 0 评论 -
Spark编程-SparkSQL
本篇博客主要介绍sparksql,简介DataFrame创建方法及并总结日常使用中使用的DataFrame操作,主要有以下几项 : 选择出多列进行打印,条件过滤,分组聚合,单列排序,多列排序,对列名进行重命名。原创 2023-07-27 14:33:00 · 257 阅读 · 0 评论 -
Spark编程-Spark中的Row
Spark中的Row是Spark SQL中的一种数据结构,用于表示一行数据。原创 2023-07-27 10:14:11 · 794 阅读 · 0 评论 -
Spark编程-使用SparkCore求TopN,Max_Min_Value
本文主要使用SparkCore求top5值编程,博客中有响应数据,并且对于求最大最小值给了两种求法。原创 2023-07-17 15:36:26 · 674 阅读 · 0 评论 -
Spark编程-读文件与写文件
主要内容为spark各形式接入数据与写入数据,包括读写本地文件,HDFS文件,JSON文件解析。原创 2023-07-14 20:30:00 · 1330 阅读 · 0 评论 -
Spark编程-共享变量(广播变量和累加器)
主要编写了共享变量的使用,spark有两个抽象一个是rdd,一个是共享变量,共享变量包括广播变量和累加器,同时讲了他们使用范围及累加器使用注意对象。原创 2023-07-14 20:00:00 · 440 阅读 · 0 评论 -
Spark编程-键值对RDD(K,V)创建及常用操作
本篇博客主要为RDD常用键值对介绍和代码演示,包括reduceByKey(func),groupByKey,mapValues,keys,values,join,sortByKey,最后给出一个整体实例--计算每种图书的每天平均销量原创 2023-07-14 14:10:58 · 1595 阅读 · 0 评论 -
Spark编程-RDD
主要讲述RDD创建方式,RDD操作(转换及行动类算子),RDD的惰性机制(俗称懒加载),持久化操作(cache及unpersist方法),RDD分区,RDD的打印方式,配合相关代码给出解释和运行结果。原创 2023-07-13 13:50:55 · 462 阅读 · 0 评论 -
Hadoop集群运行Spark应用程序
先启动hadoop,再启动Spark,具体参考链接。原创 2023-07-11 14:31:28 · 580 阅读 · 0 评论 -
Spark-用IDEA编写wordcount demo
Scala版本:2.12.12。Spark版本:3.2.0。原创 2023-07-11 09:57:54 · 987 阅读 · 0 评论 -
对Linux系统对Spark开发环境配置
基于hadoop集群的Spark环境搭建原创 2023-07-05 15:32:58 · 1309 阅读 · 0 评论