Spark
.
海洋 之心
阿里云社区专家博主,图神经网络-大数据-推荐系统研究者,专注于计算机领域前沿技术的分享等人工智能算法研究工作
展开
-
Spark中combineByKey算子使用出现报错
当使用combineByKey算子进行操作时,代码的要求是按照相同的key求相同key的平均值,所以我们希望获得对应的元组("a",(3,2))("b",(5,2))其中key为原数据中的键,value为一个元组,该元组的第一个值代表数据之和,第二个代表次数我们使用combineByKey就可以完成上述操作,首先将第一个value值映射为(value,1)然后迭代每个对象,t._1+v代表不断用新的元组的key+原数据中的value,t._2+1代表每加一次次数+1第三个匿名函数是用来进行.原创 2021-08-25 17:02:09 · 145 阅读 · 0 评论 -
Exception in thread main java.io.NotSerializableException
Exception in thread "main" java.io.NotSerializableException: guang.spark.core.test.Task at java.io.ObjectOutputStream.writeObject0(ObjectOutputStream.java:1184) at java.io.ObjectOutputStream.writeObject(ObjectOutputStream.java:348) at guang.spark.core..原创 2021-08-20 19:32:18 · 1437 阅读 · 0 评论 -
hadoop hdfs、yarn 群起脚本
#!/bin/bashif [ $# -lt 1 ]then echo "No Args Input..." exit;ficase $1 in"start")echo " =================== 启动Hadoop集群 ==================="echo " ------------------- 启动HDFS -------------------"ssh hadoop102 "/opt/module/hadoop-2.7.2/sbin/s原创 2021-08-19 22:24:30 · 309 阅读 · 0 评论 -
-bash usrlocalbindfs binbash^M bad interpreter 没有那个文件或目录
-bash: /usr/local/bin/dfs: /bin/bash^M: bad interpreter: 没有那个文件或目录出现该问题的原因一般是自己编写脚本时,在Linux上不能运行,可能原因是windows和linux有些不可见字符的问题有两种解决办法:将文件添加后缀名变成 ***.sh在Linux系统中重新编写命令,不要在windows中编写好再复制到linux中...原创 2021-08-19 22:23:48 · 313 阅读 · 0 评论 -
hadoop datanode进程不能启动
如果当我们启动hdfs时,namenode启动成功,而对应的datanode不能启动一般需要重新格式化namenode,注意一点就是在格式化之前要删除logs和data文件夹,前者为保存hadoop下保存日志的文件夹,后者一般是保存tmp文件夹,改路径是自己设定的,可以去core-site文件中进行查看,将两文件夹删除后重新进行格式化,而且还有一点就是关掉此时运行的namenode和datanode进程。hdfs namenode -format...原创 2021-08-19 20:53:31 · 570 阅读 · 0 评论 -
Caused by java.io.FileNotFoundException File filetmpspark-events does not exist
Caused by: java.io.FileNotFoundException: File file:/tmp/spark-events does not existException in thread "main" java.io.FileNotFoundException: Log directory specified does not exist: file:/tmp/spark-events Did you configure the correct one through spark.hi原创 2021-08-19 20:52:07 · 2042 阅读 · 0 评论