spark
鹿先森conan
只有知识能让你脱离平庸
展开
-
利用反射,从字符串生成一个UDF,并注册到sparksql、
import org.apache.spark.sql.SparkSessionimport org.apache.spark.sql.functions.{col, split, udf}import scala.reflect.runtime._import scala.tools.reflect.ToolBoxobject Test0625 { def main(args: Array[String]): Unit = { val spark = SparkSession.bu.原创 2021-06-25 13:08:51 · 258 阅读 · 0 评论 -
腾讯服务器搭建hadoop和spark集群启动spark-shell和hdfs dfs命令的报错记录
还有些8020端口,9000端口的各种java连接失败,几次三番确认了配置没有问题,namenode也格式化过无数遍,最终发现是、etc/hosts导致的。。。修修改改了多个版本,最终这样才成功了,并且浏览器访问50070端口也没问题了:...原创 2020-11-29 20:41:23 · 165 阅读 · 0 评论 -
从0开始,配置自己的大数据集群环境(六)--spark集群安装
安装好hadoop后开始安装spark,首先安装scala2.12.2.上传后解压vim /etc/profileexport SCALA_HOME=/opt/client/servers/scala-2.12.2export PATH=$PATH:$SCALA_HOME/binsource /etc/profilescala -version验证是否安装成功解压spark到安装目录修改/etc/profile文件export SPARK_HOME=/o.原创 2020-06-30 23:30:38 · 104 阅读 · 0 评论 -
工程同时存在java文件和scala文件时,打包不了scala文件的解决办法
当工程只有Scala文件时没有问题,然而当我同时写入java文件后发现打包文件里只有java文件的class文件,scala文件被无视了。于是引入net.alchim31.maven。然而编译确实各种报错Failed to execute goal net.alchim31.maven:scala-maven-plugin:3.2.2:compile修改alchim31内容如下net.alchim31.mavenscala-maven-plugin3.2.22.11.8src/main/sc原创 2020-06-28 12:36:52 · 810 阅读 · 0 评论 -
在spark(scala)环境解析Json文件成为数组或对象。
因为sparksession读取文件会自动生成dataframe文件,虽然可以逐条解析,但是十分不方便,并且需要预知json格式,延展性比较差,所以使用scala读取本地文件的方法转化为json字符串,再解析为数组。json文件格式:[ { "param": "id1", "method": "11111", "seq": "22222", "relatedseq": "33333", "parametertype": "44444", "value": "55555" }, { "param": "i原创 2020-06-23 22:13:26 · 2374 阅读 · 0 评论