![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
qq_15009447
这个作者很懒,什么都没留下…
展开
-
java.lang.NumberFormatException: For input string: “spu_price“
scala> rdd.filter(x=> x.split(",")(5)!=" ").map(x=>(x.split(",")(1),x.split(",")(5))).map(x=>(x._1,x._2.toDouble)).reduceByKey(_+_).collect.foreach(println)分析:出现报错先看懂啥意思,上面的意思说因为"spu_price"类型转换异常。刚开始想的是:切分之后拿到的数组的某个元素就是string啊,而scala的str原创 2021-06-12 16:34:58 · 1424 阅读 · 1 评论 -
spark 写入mysql 出现的连接问题
spark中dataFranme 的join操作出现的问题 val resu1: DataFrame = joined2.filter(($"register_time" + 7 * 86400000 )> $"signin_time") .groupBy("register_time").agg(countDistinct(registered("userUID")).as("num"))// resu1.show() val resu2: DataFrame = jo原创 2021-05-19 23:32:32 · 229 阅读 · 0 评论 -
spark重点总结
什么是RDD(Resilient Distributed Datasets)1.RDD是将数据项拆分为多个分区的集合,存储在集群的工作节点上的内存和磁盘中,并执行正确的操作RDD是用于数据转换的接口2.RDD指向了存储在HDFS、Cassandra、HBase等、或缓存(内存、内存+磁盘、仅磁盘等),或在故障或缓存收回时重新计算其他RDD分区中的数据3.分布式数据集RDD是只读的、分区记录的集合,每个分区分布在集群的不同节点上RDD并不存储真正的数据,只是对数据和操作的描述4.弹性RDD默认原创 2021-05-07 17:39:25 · 180 阅读 · 1 评论 -
scala spark 安装(local)
scala 正常解压 修改vi /etc/profile 配置环境变量source /etc/profile即可正常运行(命令:scala)spark 正常解压 修改 vi /etc/profile 配置环境变量【选配SPARK_CONF_DIR=$SPARK_HOME/conf】source /etc/profile1.mv spark-env.sh.template spark-env.shvi spark-env.shexport JAVA_HOME=/root/software/j原创 2021-05-06 17:36:04 · 65 阅读 · 0 评论