热爱Coding
自然语言处理三大顶会审稿人
展开
-
报错 lambda expressions are not supported in -source (use -source to enable lambda expressions)
【代码】lambda expressions are not supported in -source 1.5 (use -source 8 to enable lambda expressions)原创 2024-02-28 11:19:59 · 25 阅读 · 0 评论 -
Spark,Scala,collect成一个string
【代码】Spark,Scala,collect成一个string。原创 2024-02-02 10:49:38 · 26 阅读 · 0 评论 -
Spark 读excel报错,scala.MatchError
【代码】Spark 读excel报错,scala.MatchError。原创 2024-01-12 08:59:39 · 175 阅读 · 0 评论 -
Spark 报错, Failed to find data source: com.crealytics.spark.excel
Spark3需引入jar包。原创 2024-01-11 16:20:12 · 141 阅读 · 0 评论 -
Spark orderBy OOM / 执行时间超长
排序的列里有NaN值(极大值),可能是 有除法里分母为0导致的。原创 2023-12-23 13:19:54 · 388 阅读 · 0 评论 -
Spark count() OOM
【代码】Spark Count() OOM。原创 2023-12-21 14:31:47 · 365 阅读 · 0 评论 -
spark报错,Could not execute broadcast in 7200 secs
【代码】spark报错,Could not execute broadcast in 7200 secs。原创 2023-11-01 11:42:29 · 110 阅读 · 0 评论 -
pyspark报错,gzip: stdin: unexpected end of file
要打的jar包太大了,打包失败了。原创 2023-10-23 15:37:05 · 73 阅读 · 0 评论 -
spark scala 训练 LogisticRegression
【代码】spark scala 训练 LogisticRegression。原创 2023-09-26 15:02:59 · 65 阅读 · 0 评论 -
spark scala 训练 XGBoost
【代码】spark scala 训练 XGBoost。原创 2023-09-26 14:59:03 · 86 阅读 · 0 评论 -
Spark,Scala, 取列里最小/最大的10%
rate列里最大10%rate列里最小10%原创 2023-09-22 11:23:59 · 62 阅读 · 0 评论 -
spark group by sum
【代码】spark group by sum。原创 2023-08-21 14:20:52 · 75 阅读 · 0 评论 -
pyspark报错,gzip: stdin: unexpected end of file
原因:整个jar包文件太大了。原创 2023-06-28 09:48:33 · 116 阅读 · 0 评论 -
scala 只保留 中英文 数字 标点
【代码】原创 2023-06-21 09:50:41 · 68 阅读 · 0 评论 -
pyspark报错,Executor heartbeat timed out
注意这几个参数的大小要一个比一个大,是spark内部的限制。原创 2023-06-15 09:12:27 · 284 阅读 · 0 评论 -
pyspark,把list转为dataframe
【代码】pyspark把list转为dataframe。原创 2023-06-13 16:50:29 · 354 阅读 · 0 评论 -
pyspark报错,An error occurred while calling o123.saveAsTable
内存溢出,OOM了。原创 2023-05-12 15:42:32 · 351 阅读 · 0 评论 -
Spark,union指定列名,否则可能串列!
【代码】Spark,union指定列名。原创 2023-05-09 10:34:15 · 78 阅读 · 0 评论 -
spark编译时 StackOverflowError at scala.tools.nsc.transform.Erasure$Eraser.adaptMember
存在import嵌套的问题。原创 2023-04-29 17:40:17 · 101 阅读 · 0 评论 -
pyspark 读tsv文件
【代码】pyspark 读tsv文件。原创 2023-04-27 11:36:20 · 74 阅读 · 0 评论 -
Spark 对每个groupby的每个group的string进行concat
concat_ws and collect_set原创 2022-11-24 11:02:19 · 922 阅读 · 0 评论 -
Spark 报错 no Java class corresponding to Product with Serializable found
spark原创 2022-11-22 14:54:43 · 682 阅读 · 0 评论 -
Spark关于.rdd的速度优化
.rdd原创 2022-11-17 11:13:09 · 432 阅读 · 0 评论 -
Spark,控制输入 group by 的每个group的row数量
limit rows feed for each group原创 2022-11-03 19:49:39 · 491 阅读 · 0 评论 -
pyspark 报错 StructType can not accept object
pyspark原创 2022-10-27 10:11:54 · 306 阅读 · 0 评论 -
pyspark 报错 Can not infer schema for type
pyspark原创 2022-10-26 20:05:36 · 110 阅读 · 0 评论 -
pyspark 报错 Input row doesn‘t have expected number of values required by the schema
pyspark原创 2022-10-26 19:27:09 · 201 阅读 · 0 评论 -
spark报错:ClassCastException: cannot assign instance of SerializedLambda to field
spark3原创 2022-10-20 15:09:54 · 1046 阅读 · 0 评论 -
spark, group by 同时 concat 其他字段,两种实现
group by concat原创 2022-09-23 17:17:50 · 643 阅读 · 0 评论 -
Spark,groupby之后加上repartition可以显著加快速度
dataDF.rdd.groupBy(row => row.getAs[Long]("the_key")) .repartition(2000).flatMap(pair => {原创 2022-08-26 10:28:43 · 439 阅读 · 0 评论 -
spark的两种groupby,一种不易OOM
spark不易OOM的groupby原创 2022-07-20 15:01:59 · 862 阅读 · 0 评论 -
ClassNotFoundException: fastjson.TypeReference 以及 NoClassDefFoundError: fastjson/TypeReference
pom.xml配了,不是一个常规的ClassNotFoundException / NoClassDefFoundError可以绕过:JSON.parseObject(inputString, new TypeReference<List<SomeClass>>() { });改为(List<SomeClass>) JSON.parseObject(inputString);...原创 2022-05-19 17:48:36 · 398 阅读 · 0 评论 -
spark,scala调用java代码,报错 NoClassDefFoundError + ClassNotFoundException
在pom.xml文件的<build>里要加上<sourceDirectory>src/main/scala</sourceDirectory><testSourceDirectory>src/test/scala</testSourceDirectory>原创 2022-05-18 09:09:47 · 523 阅读 · 0 评论 -
java/scala contains 英文
val pattern = new Regex(".*[A-Za-z]+.*") val result: Regex.MatchIterator = pattern findAllIn theInputString if(result.nonEmpty){ //contains }else{ // not contains }原创 2022-05-07 11:58:45 · 435 阅读 · 0 评论 -
Spark join 不等于 逻辑的坑
=!= 要和 === 一起加上 && 使用,否则相当于遍历所有row来判断 不等于,速度卡死。原创 2022-03-16 18:12:11 · 1729 阅读 · 0 评论 -
Spark 优化加速
把map之前的repartition()调大,感觉屡试不爽~~原创 2022-03-03 14:55:49 · 1952 阅读 · 0 评论 -
Spark,Scala,保存tensorflow-TfRecord到HDFS,示例
import org.tensorflow.example.Featuresimport org.tensorflow.example.Featureimport org.tensorflow.example.Exampleimport org.tensorflow.example.FloatList import org.tensorflow.example.Int64Listimport org.apache.hadoop.io.{BytesWritable, NullWritable}im原创 2022-01-15 20:30:17 · 746 阅读 · 0 评论 -
Spark,union无效
val df1 = hiveContext.sql( s""" |select | * | from tableName |""".stripMargin)df2.union(df1) // 无效,因为上面的select*不行,要具体指定select的列名原创 2022-01-06 19:53:52 · 807 阅读 · 0 评论 -
Spark,mapPartitions之前的repartition增大可以显著加快速度
mapPartitions里是耗时的(batch型的)模型推理dataframe.repartition(500).rdd.mapPartitions改为dataframe.repartition(5000).rdd.mapPartitions原创 2021-12-21 19:36:05 · 1123 阅读 · 0 评论 -
Spark,大规模jaccard距离join,笛卡尔积的复杂度,的速度优化逼近算法
有jaccard距离udf函数:def jaccardDistance = udf { (string1: String, string2: String) => var result = false val set1: Set[Char] = string1.toSet val set2: Set[Char] = string2.toSet val intersectSize = set1.intersect(set2).size.toFloat原创 2021-09-08 19:24:27 · 309 阅读 · 0 评论