总结一下在做下面这个项目时遇到的问题,原链接如下:
(ps:这里只详述遇到的问题,源代码请移步原文。希望大家都能成功!!!)
(26条消息) Spark项目实战:购物网站评价标签生成(非常详细的Spark算子操作)_给商品打标签 spark_萧邦主的博客-CSDN博客
一、我的开发环境(较新!!!)
1、Spark:3.1.2
2:jdk:1.8
3、scala:2.12.11
<groupId>com.fjy</groupId>
<artifactId>comment_tag</artifactId>
<version>1.0-SNAPSHOT</version>
<properties>
<scala.version>2.12.11</scala.version>
<spark.version>3.1.2</spark.version>
</properties>
二、项目代码补充
(1)我的包目录:
(2)修改的依赖部分 (自己根据实际情况去maven respositpry上查看,版本一定要对应!)
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-core_2.12</artifactId>
<version>${spark.version}</version>
<scope>provided</scope>
</dependency>
(3)出现的导入依赖、插件问题
在IDEA Maven开发Spark项目的pom.xml中,报“Cannot resolve plugin org.scala-tools:maven-scala-plugin:”错误问题……
我当时有两个插件爆红了,pom.xml文件中引入这两个依赖后就能好了。
<dependency>
<groupId>org.scala-tools</groupId>
<artifactId>maven-scala-plugin</artifactId>
<version>2.12</version>
</dependency>
<dependency>
<groupId>org.apache.maven.plugins</groupId>
<artifactId>maven-eclipse-plugin</artifactId>
<version>2.5.1</version>
</dependency>
(4)没有生成jar包!是因为路径里面有中文,千万千万不要有中文!!!
改了路径重新引入项目包的时候,可能出现识别不了java文件的情况(出现橙色的J)
点击File->Project Structure,然后把右边Add Content Root里面的内容全给删了!
重新载入一下,好啦!
然后点一下右边的clean和package(packag包括了compile操作)
成功啦!!!都是项目名加后缀,别傻傻的去找temtag,除非你的项目叫这名!
(5)上传到集群
一定要先启动Hadoop集群,再启动zookeeper集群,最后启动spark集群
spark集群的启动需要进入spark目录下,输入sbin/start-all.sh
然后进入bin目录下,输入以下的代码,即运行成功!
./spark-submit --master spark://hadoop102:7077 --class com.fjy.app.TagGenerator /opt/module/spark-3.1.2/jars/comment_tag-1.0-SNAPSHOT-jar-with-dependencies.jar hdfs://hadoop102:/data/temptags.txt hdfs://hadoop102:/data/outs