physicist4AI
自然语言处理三大顶会审稿人 zhihu.com/people/guotong1988
展开
-
Spark报错 No Encoder found for AnyVal
比如 这列的值有int也有float,就会报这个错。原创 2024-07-01 19:37:39 · 24 阅读 · 0 评论 -
【Spark】直接从DataFrame的schema创建表
然后insert数据。原创 2024-06-04 16:20:41 · 251 阅读 · 2 评论 -
【Spark】调整hive表在HDFS存的每个文件的大小
【代码】hive表在HDFS的每个文件的大小。原创 2024-05-24 11:27:47 · 132 阅读 · 0 评论 -
【hive-SQL】多个column转成一个array<>类型的column
【代码】【hive-SQL】多个column转成一个array_column。原创 2024-05-09 14:47:23 · 38 阅读 · 0 评论 -
【hive-SQL】string 转成 array<>
【代码】【hive SQL】string 转成 array<bigint>原创 2024-05-09 14:27:18 · 290 阅读 · 1 评论 -
报错 lambda expressions are not supported in -source (use -source to enable lambda expressions)
【代码】lambda expressions are not supported in -source 1.5 (use -source 8 to enable lambda expressions)原创 2024-02-28 11:19:59 · 40 阅读 · 0 评论 -
Spark,Scala,collect成一个string
【代码】Spark,Scala,collect成一个string。原创 2024-02-02 10:49:38 · 37 阅读 · 0 评论 -
Spark 读excel报错,scala.MatchError
【代码】Spark 读excel报错,scala.MatchError。原创 2024-01-12 08:59:39 · 197 阅读 · 0 评论 -
Spark 报错, Failed to find data source: com.crealytics.spark.excel
Spark3需引入jar包。原创 2024-01-11 16:20:12 · 195 阅读 · 0 评论 -
Spark orderBy OOM / 执行时间超长
排序的列里有NaN值(极大值),可能是 有除法里分母为0导致的。原创 2023-12-23 13:19:54 · 399 阅读 · 0 评论 -
Spark count() OOM
【代码】Spark Count() OOM。原创 2023-12-21 14:31:47 · 401 阅读 · 0 评论 -
spark报错,Could not execute broadcast in 7200 secs
【代码】spark报错,Could not execute broadcast in 7200 secs。原创 2023-11-01 11:42:29 · 162 阅读 · 0 评论 -
pyspark报错,gzip: stdin: unexpected end of file
要打的jar包太大了,打包失败了。原创 2023-10-23 15:37:05 · 80 阅读 · 0 评论 -
spark scala 训练 LogisticRegression
【代码】spark scala 训练 LogisticRegression。原创 2023-09-26 15:02:59 · 70 阅读 · 0 评论 -
spark scala 训练 XGBoost
【代码】spark scala 训练 XGBoost。原创 2023-09-26 14:59:03 · 103 阅读 · 0 评论 -
Spark,Scala, 取列里最小/最大的10%
rate列里最大10%rate列里最小10%原创 2023-09-22 11:23:59 · 74 阅读 · 0 评论 -
spark group by sum
【代码】spark group by sum。原创 2023-08-21 14:20:52 · 78 阅读 · 0 评论 -
pyspark报错,gzip: stdin: unexpected end of file
原因:整个jar包文件太大了。原创 2023-06-28 09:48:33 · 135 阅读 · 0 评论 -
java/scala 保留 中英文 数字 标点 空格
【代码】原创 2023-06-21 09:50:41 · 81 阅读 · 0 评论 -
pyspark报错,Executor heartbeat timed out
注意这几个参数的大小要一个比一个大,是spark内部的限制。原创 2023-06-15 09:12:27 · 328 阅读 · 0 评论 -
pyspark,把list转为dataframe
【代码】pyspark把list转为dataframe。原创 2023-06-13 16:50:29 · 387 阅读 · 0 评论 -
pyspark报错,An error occurred while calling o123.saveAsTable
内存溢出,OOM了。原创 2023-05-12 15:42:32 · 406 阅读 · 0 评论 -
Spark,union指定列名,否则可能串列!
【代码】Spark,union指定列名。原创 2023-05-09 10:34:15 · 90 阅读 · 0 评论 -
spark编译时 StackOverflowError at scala.tools.nsc.transform.Erasure$Eraser.adaptMember
存在import嵌套的问题。原创 2023-04-29 17:40:17 · 115 阅读 · 0 评论 -
pyspark 读tsv文件
【代码】pyspark 读tsv文件。原创 2023-04-27 11:36:20 · 81 阅读 · 0 评论 -
Spark 对每个groupby的每个group的string进行concat
concat_ws and collect_set原创 2022-11-24 11:02:19 · 965 阅读 · 0 评论 -
Spark 报错 no Java class corresponding to Product with Serializable found
spark原创 2022-11-22 14:54:43 · 698 阅读 · 0 评论 -
Spark关于.rdd的速度优化
.rdd原创 2022-11-17 11:13:09 · 434 阅读 · 0 评论 -
Spark,控制输入 group by 的每个group的row数量
limit rows feed for each group原创 2022-11-03 19:49:39 · 511 阅读 · 0 评论 -
pyspark 报错 StructType can not accept object
pyspark原创 2022-10-27 10:11:54 · 327 阅读 · 0 评论 -
pyspark 报错 Can not infer schema for type
pyspark原创 2022-10-26 20:05:36 · 113 阅读 · 0 评论 -
pyspark 报错 Input row doesn‘t have expected number of values required by the schema
pyspark原创 2022-10-26 19:27:09 · 233 阅读 · 0 评论 -
spark报错:ClassCastException: cannot assign instance of SerializedLambda to field
spark3原创 2022-10-20 15:09:54 · 1150 阅读 · 0 评论 -
spark, group by 同时 concat 其他字段,两种实现
group by concat原创 2022-09-23 17:17:50 · 654 阅读 · 0 评论 -
Spark,groupby之后加上repartition可以显著加快速度
dataDF.rdd.groupBy(row => row.getAs[Long]("the_key")) .repartition(2000).flatMap(pair => {原创 2022-08-26 10:28:43 · 451 阅读 · 0 评论 -
spark的两种groupby,一种不易OOM
spark不易OOM的groupby原创 2022-07-20 15:01:59 · 882 阅读 · 0 评论 -
ClassNotFoundException: fastjson.TypeReference 以及 NoClassDefFoundError: fastjson/TypeReference
pom.xml配了,不是一个常规的ClassNotFoundException / NoClassDefFoundError可以绕过:JSON.parseObject(inputString, new TypeReference<List<SomeClass>>() { });改为(List<SomeClass>) JSON.parseObject(inputString);...原创 2022-05-19 17:48:36 · 413 阅读 · 0 评论 -
spark,scala调用java代码,报错 NoClassDefFoundError + ClassNotFoundException
在pom.xml文件的<build>里要加上<sourceDirectory>src/main/scala</sourceDirectory><testSourceDirectory>src/test/scala</testSourceDirectory>原创 2022-05-18 09:09:47 · 531 阅读 · 0 评论 -
java/scala contains 英文
val pattern = new Regex(".*[A-Za-z]+.*") val result: Regex.MatchIterator = pattern findAllIn theInputString if(result.nonEmpty){ //contains }else{ // not contains }原创 2022-05-07 11:58:45 · 436 阅读 · 0 评论 -
Spark join 不等于 逻辑的坑
=!= 要和 === 一起加上 && 使用,否则相当于遍历所有row来判断 不等于,速度卡死。原创 2022-03-16 18:12:11 · 1747 阅读 · 0 评论