spark
陈沐
知识改变命运
展开
-
Spark的文件读取路径
在不同的启动模式下,加载文件时的路径写法是不一样的对于local模式下,默认就是读取本地文件而在standlone或者yarn-client,或者cluster模式下,默认读的都是hdfs文件系统,这几种模式下很难读取本地文件(这是很显然的事情,但你可以通过指定节点的文件服务曲线救国)。下面的代码在local模式下有效,在其它模式下无效:var theP1 = sc.textFile("file:///usr/test/people.json") //读取本地var theP2 = sc.te原创 2021-11-16 21:32:40 · 2478 阅读 · 0 评论 -
报错HiveException: MetaException( Permission denied:user=xxx,access=WRITE,inode=xxx)
今天编写代码的时候遇见了一个报错显示没有权限从集群上读取数据Permission denied:user=xxx,access=WRITE,inode=xxx问题解析如果hadoop没有启Kerberos或者从Kerberos获取的用户为null,那么将获取HADOOP_USER_NAME环境变量,并将它的值作为Hadoop执行用户。如果我们没有设置HADOOP_USER_NAME环境变量,那么程序将调用whoami来获取当前用户,并用groups来获取用户所在组。解决思路:配置window下原创 2021-11-16 18:01:01 · 5193 阅读 · 1 评论 -
WIN10下开发报错:Could not locate executable null\bin\winutils.exe in the Hadoop 详细解决方法
1.问题出现仔细观看是没找到winutils.exe2.问题解决第一种方法,我们找到源码292行,他是先从System.getProperty("hadoop.home.dir");这里获得信息,从他的注释信息看// first check the Dflag hadoop.home.dir with JVM scope首先检查的应该是java虚拟机里面的这个hadoop.home.dir,那我们就可以直接在程序开始执行出手动添加System.setProperty("hadoop.h原创 2021-11-05 17:42:15 · 734 阅读 · 0 评论 -
Spark集群启动与关闭
Hadoop集群和Spark的启动与关闭Hadoop集群开启三台虚拟机均启动ZookeeperzkServer.sh startMaster1上面执行 启动HDFSstart-dfs.shslave1上面执行 开启YARNstart-yarn.shslave2上面执行 开启YARN的资源管理器yarn-daemon.sh start resourcemanager (如果nodeManager没有启动(正常情况下 start-yarn.sh 就会启动),手动启动)yarn原创 2021-10-13 20:29:47 · 8774 阅读 · 0 评论 -
java.net.URISyntaxException: Relative path in absolute URI: file:**/spark-warehouse
最近学习Spark,尝试连接数据库的时候一个例子一直报一个错,说是Spark-warehouse路径有问题(都不知道Spark-warehouse这玩意儿是啥)一开始main下的代码是这样的val sparkConf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("readFrom_toMySQL") val sc: SparkContext = new SparkContext(sparkConf)报错java.原创 2021-10-05 22:11:13 · 594 阅读 · 0 评论 -
spark org.apache.xmlbeans.XmlOptions.setEntityExpansionLimit(I)Lorg/apache/xmlbeans/XmlOptions报错
原因因为在spark中使用poi包 没有导入3.0以上的xmlbeans包 因为版本问题3.0以下的不支持解决方法:导入maven <dependency> <groupId>org.apache.xmlbeans</groupId> <artifactId>xmlbeans</artifactId> <version>3.1.0</version>原创 2021-09-26 21:47:02 · 2321 阅读 · 0 评论 -
利用Spark代码从Excel文件中读取多个数据表数据(使用Session读取)
利用spark代码从excel文件中读取数据1.需要添加poi的pom文件 <!-- 读取excel xlsx--> <dependency> <groupId>org.apache.poi</groupId> <artifactId>poi</artifactId> <version>3.17</version> </dependency>原创 2021-09-26 21:44:55 · 1047 阅读 · 4 评论 -
Seq没有toDF方法 import spark.implicits._报错
给出错误的代码var sc: SparkSession =SparkSession.builder() .appName("Test") .config("spark.sql.warehouse.dir","file:///") .getOrCreate() import spark.implicits._//这里spark出现了爆红原创 2021-09-26 21:26:04 · 799 阅读 · 0 评论