- 博客(129)
- 收藏
- 关注
原创 Spark_跑批__.checkpoint()为什么比.persist()快
他在跑一个spark程序,跑的时候差不多五六分钟(加了persist的情况),如果不加persist,改为..checkpoint()缓存,速度基本维持在三四分钟左右,速度提升了不少,查了源码和资料,理解了些。
2024-11-01 09:56:38 290
原创 Spark_入库时报错ORA-00001 unique constraint violated 解决办法
如果报主键冲突了,则group by 一下id,date,然后select 的时候加一个count(1) >1,语句如下。基本上对这个id的去重就ok,视情况而定,我的数据是建立在id这一列,id,对应的后续的其他数据都是一样的,所以我可以这么整。检查一下看看是否入库前删除了分区的数据,可能是重复数据入库的问题,如果不是这个那么继续排查。基本上我就是这么解决的。其他的暂时还没遇到过。我造了三条数据,以此演示一下。
2024-10-21 10:22:26 309
原创 解决Git拉取项目后右侧边栏无Maven的问题
从gitlab上拉取新项目,当你配置好maven仓库地址,配置文件,各种库都配置好了,但是没有Maven,找不到下图的package因此打包不了项目,该怎么办?非常简单,只需一步!
2024-10-14 10:32:20 303
原创 Spark-关于《传播溯源》算法的几点思考
刚接到需求时一脸懵,当时正值疫情,传播溯源在追踪0号感染者有很大的意义,当然在别的领域也是如此,来活了.......近日想起来刚工作不久时候组长安排给我的任务,基于Spark图计算代码开发一个传播溯源的代码。
2024-10-11 08:49:18 220
原创 Spark_解决Date is not a valid external type for schema of date
代码报错:Date is not a valid external type for schema of date。解决:Spark没有名为。的数据类型,应该使用。
2024-09-12 15:31:59 111
原创 OffsetExplorer2-快捷使用方式--将Data的数据类型是Byte Array修改为String
二、点击add cluster,四、配置的kafkatool界面。五、出现这个界面说明可以了。KafkaTool的使用。
2024-09-05 10:08:26 237
原创 Hive时间格式处理_将时间类型为yyyyMMdd转为yyyy-MM-dd类型
业务中要通过读取时间分区字段做筛选数据并处理,但是我表字段值为20240905类型的,我要把他转为2024-09-05适配我的时间传参。
2024-09-05 08:20:59 532
原创 Spark轨迹大数据高效处理_计算两经纬度点间的距离_使用Haversine formula公式
Haversine公式的数学理论基于球面三角学和三角恒等式的推导,通过近似计算大圆航线距离,适用于小距离的球面距离计算。这基本符合我的需求,因为我的计算都是基本是短距离计算的,基本不会跨省,实际效果也不错,如果你是超远距离计算,比如跨国,跨洲了,可以先试试,然后再考虑使用。
2024-08-08 09:29:10 502
原创 Spark轨迹大数据处理_scalaSpark代码实多点对多点的GIS点(经纬度点)的方位角计算
方位角(azimuthangle):从某点的指北方向线起,依顺时针方向到目标方向线之间的水平夹角,叫方位角。
2024-08-06 16:59:30 535
原创 Spark_获取指定日期的所在月份的天数完整指南
计算规则是某值除以近半年 天数以及24h,但是月份里面数据有空值,所以要计算一下id对应的月份的天数,并且过滤掉数据有空值的天数。本文将介绍如何Spark框架来计算给定日期所在月份的天数,并将其应用于一个实际的数据集。前段时间有一个开发需求的一小块用到了这,是一个利用率的计算。规则是某id下的近半年的值的小时利用率。我这个人写博客,总喜欢交代一下背景,好提醒自己这块是哪块的业务知识。业务千变万化,逻辑倒是少得可怜。得到这个结果我们就可以做后面的操作了,这是demo,比如说可以计算后续的操作了,over。
2024-08-06 14:42:21 318
原创 Spark轨迹大数据处理_scalaSpark代码实两个GIS点(经纬度点)之间的方位角计算
方位角(azimuthangle):从某点的指北方向线起,依顺时针方向到目标方向线之间的水平夹角,叫方位角。具体实例如下图方位角-数学百科废话不多说,直接上代码/*** 方位角是从一个地点指向另一个地点的方向,通常以度为单位,从正北方向顺时针测量。
2024-07-23 16:18:49 566 1
原创 Spark_Oracle_II_Spark高效处理Oracle时间数据:通过JDBC桥接大数据与数据库的分析之旅
接前文背景,当需要从关系型数据库(如Oracle)中读取数据时,Spark提供了JDBC连接功能,允许我们轻松地将数据从Oracle等数据库导入到Spark DataFrame中。然而,在处理时间字段时,可能会遇到一些挑战,特别是在Oracle的DATE和TIMESTAMP类型与Spark SQL的日期时间类型之间进行转换时。
2024-07-23 14:58:27 472
原创 Spark_Oracle_I_通过jdbc读取oracle程序报错invalid character
我原先是通过我么api直接读取的oracle,现在由于要并行读取这个oracle数据库表数据,因此采用jdbc的方式,一开始我把sql变成query直接查,所以报上面的问题。其实一开始就是想要快一点读取oracle表数据,但是发现设置这个并行度和我调我们自己搞得类时间是差不多的。效率我在优化一下吧,看看时间怎么样。不加query,直接在这里整出全表数据,然后再filter一下我们要的数据。这样是不行的,不能加query。
2024-07-22 17:25:31 741
原创 Git使用-本地的idea代码如何整到gitlab上面的项目分支中
以下是本人常用的GIT提交与上传代码,请选择适配自己的方式,仅供参考。第一步,一般来说,我们从GIT上拉下来项目分支代码后,做些修改什么的,相关的代码都会变色。当然我们提交的部分就是我们修改的部分。有的还会选择让你merge啥的。
2024-07-15 10:39:12 279
原创 Spark_Hive_列转行、行转列生产操作(透视和逆透视)
行专列,列转行是数开不可避免的一步,尤其是在最初接触Hive的时候,看到什么炸裂函数,各种udf,有点发憷,无从下手,时常产生这t怎么搞,我不会啊?好吧,真正让你成长的,还得是甩给你一个需求,然后你自己绞尽脑汁的去实现。
2024-06-20 09:54:07 453
原创 Spark_SparkOnHive_海豚调度跑任务写入Hive表失败解决
方法将 DataFrame 的数据插入到一个已经存在的Hive表中,如果该表已经存在,则直接将数据插入到该表中,如果表不存在,则会抛出异常。如果表不存在,则会自动创建该表,如果表已经存在,则会用DataFrame的数据覆盖该表中的数据。前段时间我在海豚上打包程序写hive出现了一个问题,spark程序向hive写数据时,报了如下bug,后来我删了建,把分区也删了,parquet格式也加了,还是报这个问题,因此排除是建表问题。后来我看代码,入库的语句如下,死活写不进去。如上,为什么会这样呢,我想了一下,
2024-05-28 15:52:08 533
原创 Spark_SparkSql写入Oracle_Undefined function.....将长字符串写入Oracle中方法..
在使用Spark编写代码将读库处理然后写入Oracle中遇到了诸多小bug,很磨人。shit!!
2024-04-10 17:54:15 632
原创 Hive-生产常用操作-表操作和数据处理技巧-202404
我这个只涉及到hive的对表的操作,包括建表,建分区表,加载数据,导出数据,查询数据,删除数据,插入数据,以及对hive分区表的操作,包括查看分区,添加分区,分区名修改,分区数据修改,删除分区等。 复杂的聚合函数以及常用的炸裂函数的应用,行转列在这是没有体现出来的,后边有时间结合业务我再来写吧。 基本都在hue上对hive进行操作,仅限于查查表,改改数据,而复杂的处理逻辑基本是使用spark写算法,调sparksql,或者sparkcore来实现的。
2024-04-09 11:24:48 634
原创 SparkBug解决:Type mismatch; found : org.apache.spark.sql.Column required: Double
返回的是一个布尔值,需要返回一个Option[Int]类型。来返回一个Option[Int]方法中的条件判断条件。
2024-04-03 17:43:28 481
原创 SparkBug解决 :java.lang.UnsupportedOperationException: Schema for type Any is not supported
为了解决这个问题,将 UDF 的返回类型指定为。出现这个错误是因为 Spark 不支持使用。类型作为列的数据类型。,并在 UDF 中返回。
2024-04-03 17:13:52 249
原创 SparkBug解决:spark跑调度任务azkaban,reference “字段1” id ambigous,could be...
原因,字段重复了。
2024-03-29 14:38:31 149
原创 Spark-根据命令行参数(args)中传递的值来计算前一天或者根据默认设置获取昨天的日期
【代码】Spark-根据命令行参数(args)中传递的值来计算前一天或者根据默认设置获取昨天的日期。
2024-03-15 10:10:17 168
原创 IDEA打包Spark代码出现bug:java.io.Eception:cannot create output directory......target解决1
我在打包代码时,点击clean后,再点击install,就报上面的bug。解决办法,关闭sftp就行。
2024-03-15 09:40:24 359
原创 Spark_本地编译报错解决-java.io.FileNotFoundException: Could not locate Hadoop executable
java.io.FileNotFoundException: Could not locate Hadoop executable: D:\Hadoop\hadoop-3.2.4\bin\winutils.exe -see https://wiki.apache.org/hadoop/WindowsProblems
2024-03-06 13:38:16 345
原创 sql实战_基于某推荐比值问题
将一个月内某PL对应的MBLX出现的最高的频次的占比值最大的值统计出来,并且还要把XHLX,MBLX字段添加上作为最终的推荐字段。后面优化时采用的是svm算法以及随机森林优化。
2024-02-26 15:08:48 356
原创 Spark解决代码变量bug:error: reassingnment to val
关键字用于声明一个不可变的变量,一旦赋值后就不能再更改。这就是为什么我尝试重新赋值给。时会收到“reassignment to val”的错误。
2024-02-21 20:51:52 413
原创 生产环境_Spark接收传入的sql并替换sql中的表名与解析_非常NB
本文将介绍如何使用Apache Spark在大数据环境中,将数据库数据转换为DataFrame并进行查询。主要内容涵盖了从数据库获取数据、将数据转换为DataFrame、创建临时视图、展示数据、构造SQL查询语句,以及使用正则表达式和Spark SQL执行最终查询等步骤。该代码具有高度的通用性,可以适配多种数据库,如HBase和MySQL。
2024-02-01 10:22:41 569
原创 生产环境_Spark找出两DataFrame之间的差集(技巧)
在生产作业中,经常在工作流中遇到前后两DataFrame的数据缺失,比如df1为410条,下一个节点的df2就变成409条了,用眼睛看很费劲,因此不得不做一个差集。
2024-01-27 19:41:39 307
原创 航迹rh参考资料
第六部分:什么是轨迹级融合(或轨迹融合)?_哔哩哔哩_bilibili第五章轨迹规划 - 5.5 轨迹融合Blend - 知乎第十一讲航迹融合.ppt【一等奖解题思路】基于雷达数据的航迹实时关联与轨迹融合任务赛题 - 知乎
2024-01-17 16:07:48 410
原创 轨迹大数据分析:革命性的地理空间分析与Apache Spark:处理空间不连续的点数据
本文将介绍如何使用Apache Spark对地理空间数据进行处理。我们将以实际代码示例展示如何解决点数据中由于跨越180度经线而产生的突变问题。通过分析连续点之间的经度差异,并巧妙地插值生成新数据,我们将展示如何稳健地处理这类特殊情况。这个技术不仅可以应用于航行和地理信息系统等领域,同时也为大规模地理数据处理提供了新的思路和方法。
2023-12-22 20:21:47 504
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人