一位不愿透露姓名的肥宅-CSDN博客

原创 spark4040页面内容缺失

根据报错信息可以得知没有png、css和js资源,只有html资源。百度后发现是版本问题,搜索类发现一个是2.5版本,一个是3.1版本。在本地maven仓库把低版本的jar删除即可解决。打开spark4040页面程序报错。

2023-03-14 10:53:29 361 1

原创 message from server: “Host ‘dsy‘ is not allowed to connect to this MySQL server“

在/etc/my.cnf 的[mysqld]下加入skip-grant-tables 然后重启mysql查看mysql.user表发现root用户没了？输入hive命令报错，重启后也没有用，随后尝试连接mysql出现这个问题。问题成功解决了但不知道为什么hive的表只剩default了,悲！在hive-conf.xml文件添加以下内容。尝试登陆mysql发现密码居然不能用了？重新添加root用户重启解决。添加root用户参考。

2023-03-08 16:07:05 201

原创构建sparkSession工具类

【代码】构建sparkSession工具类。

2023-03-08 13:43:53 549

原创 spark写入Hbase工具类

【代码】spark写入Hbase工具类。

2023-03-08 13:42:24 180

原创 Could not deallocate container for task attemptId+内存溢出

字面意思,没有给任务分配container，在创建容器的过程中出错了。在执行hive语句时mr卡住不动然后查看日志报了这个错。在mapred-site.xml文件添加以下内容。在yarn-site.xml文件添加以下内容。重启hadoop集群后运行成功。

2023-03-08 13:37:47 82

原创错误: 找不到或无法加载主类 org.apache.hadoop.mapreduce.v2.app.MRAppMaster

hive使用select count(*) from test;在yarn-site.xml文件中添加以下内容解决。

2023-03-08 11:39:32 248

原创 contains invalid character(s). Please use alias to rename it.；

spark写入hive orc表报错。

2023-03-08 10:51:53 464

原创 snappy.parquet could only be replicated to 0 nodes instead of minReplication (=1).

spark写入hive表报错。

2023-03-08 09:03:01 74

原创 Unable to load native-hadoop library for your platform...

启动spark-shell或spark-submit时出现的警告，不影响程序运行。在 profile 文件中添加以下内容后source解决。

2023-03-07 15:44:14 121

原创 Unable to instantiate SparkSession with Hive support because Hive classes are not found.

spark集成hive报错。在xml文件加入以下依赖。

2023-03-07 13:49:57 439

原创 ERROR Executor: Exception in task 0.0 in stage 1.0 (TID 1)Long cannot be cast to java.lang.String

这是报错行，rowkey的id这个字段是我使用sparkSQL自带的函数临时添加的，打印schema发现是long类型。java Long类型好像不能getAs为String，所以报错了。尝试使用spark写入Hbase报错。将这个字段转换为String再次尝试。

2023-03-01 11:28:57 2707

原创 hbase.io.ImmutableBytesWritable不能序列化

org.apache.hadoop.hbase.io.ImmutableBytesWritable这个类不能序列化。在sparkConf设置一下序列化。

2023-03-01 11:27:06 125

原创 Spark写入Hbase空值异常

调试几次后发现是数据中有空值造成的，批量写入Hbase需要获取值转换为Byte数组,获取值为空导致转换失败了。加上一个条件判断后再次尝试。

2023-03-01 11:26:52 180

原创 spark on yarn 读取hdfs拒绝连接AnnotatedConnectException: 拒绝连接: localhost/127.0.0.1:53056

可能是服务器找不到Driver导致的，在服务器的host配置你Driver电脑的映射可能解决问题，这里我是云服务器，没在一个局域网且没有公网ip所以放弃远程提交改用命令行提交。技术力有限，如果有更好的结局方案请留言，不胜感激。spark on yarn 读取hdfs拒绝连接。

2023-02-22 15:32:52 820

原创 spark on yarn idea错误: 找不到或无法加载主类org.apache.spark.deploy.yarn.ExecutorLauncher

设置sparkconf的"spark.yarn.jars"属性后解决第一个为你的jar包名称，第二个为spark依赖的jar包目录。spark on yarn idea远程提交报错，查看8088日志发现。

2023-02-22 11:29:34 1041

原创 DFSClient: Exception in createBlockOutputStreamjava.net.ConnectException: Connection timed out

idea远程提交spark on yarn出现问题代码报错信息连接超时，防火墙已关闭，端口开放，重启hdfs后还是无法解决，捣鼓了很久在百度后再次查看日志在后面的报错中找到这么一串信息连接datanode使用的是私网ip，难怪连接不到，配置外网访问datanode就可以了。

2023-02-22 10:46:21 498

原创 spark连接hdfs文件系统一直报错说没有主机

使用telnet 测试9000端口是正常的，50070端口也能打开，ping连接测试正常。改host文件将Dream_yun改为dys后成功运行。spark连接hdfs文件系统一直报错说没有主机。主机名不能有下划线，好像不能识别。

2023-02-21 11:53:12 211

原创 authentication disabled； ui acls disabled； users with view permissions: Set(han)；

刚把数据上传到hdfs准备用spark测试一下看能不能读取结果在创建执行环境时遇到了这个报错。翻译一下好像是权限问题。

2023-02-21 11:26:01 1564

原创启动hadoop集群询问密码

再次启动不再询问密码。

2023-02-20 19:45:29 121

原创 Windows 运行spark on yarn HADOOP_CONF_DIR和YARN_CONF_DIR配置项无效

在conf/spark-env.sh文件中配置HADOOP_CONF_DIR和YARN_CONF_DIR后依然无法解决问题。在windows上运行spark on yarn出现。

2023-02-20 12:37:35 477 1

原创 windows启动hadoop namenode无法启动

hdfs-site.xml与core-site.xml配置项出现冲突。windows环境启动hadoop集群出现报错。删除core-site.xml红框中的配置项。

2023-02-18 13:04:36 321

原创 failed with state FAILED due to: Application application_xxx failed 2 times due to AM Container

在mapred-site.xml与yarn-site.xml文件中写入以下内容。在搭建好hadoop集群后使用以下命令测试mapreduce报错。可能是程序找不到主类造成的。

2023-02-14 01:13:17 952

原创 spark on yarn falling back to uploading libraries under SPARK_HOME.

spark-shell底层是调用的spark-submit，每次运行时都会把yarn所需的spark jar打包上传至HDFS，然后分发到每个NM。如果我们将jar包提前上传至HDFS，那么spark在运行时就不用上传，可以直接从HDFS读取了。重新运行 spark-shell --master yarn-client。在以yarn作为master启动sparkshell出现警告。在spark-default.conf文件中添加。将jar包上传至hdfs目录。

2023-02-13 06:32:43 200

原创 spark on yarn配置安装

配置环境变量，在/etc/profile文件中添加以下内容并重新加载配置文件(source /etc/profile)进入spark/conf配置目录新建spark-env.sh文件(vim spark-env.sh)并加入以下内容。将下载好的压缩包传入虚拟机的安装路径，本文章为/soft目录。进入spark安装目录输入以下内容成功返回pi的值则配置成功。

2023-02-13 05:36:02 860

原创 Linux安装Hive

上传jdbc驱动包到/soft/hive/lib文件夹下并保证mysql中有名为hive的数据库。这可能是因为jdbc版本问题导致的，在确保hive/lib目录下有jdbc驱动包后可以参考一下。这里mysql版本为5.7，请下载你mysql对应版本的jdbc驱动。将安装包上传至/soft目录并解压改名。需要提前安装hadoop与mysql。输入 show databases;确保hadoop启动后启动hive。，这里可能有人会遇到。修改hive环境变量。

2023-02-12 06:33:26 107

原创安装hive初始化元数据库时发生java.lang.ClassNotFoundException : com.mysql.cj.jdbc.Driver

如果我们在项目中配置的driver-class-name为com.mysql.cj.jdbc.Driver，则对应的mysql-connector-java版本应该是6.x。如果我们在项目中配置的driver-class-name为com.mysql.jdbc.Driver，则对应的mysql-connector-java版本应该是5.x。百度后得知，5.x和6.x的版本的Driver类路径不一样所以导致了这个报错。jar包存在，但是找不到，我想可能是版本问题，于是开始百度。修改完成后再次尝试初始化。

2023-02-12 06:01:04 784

qq_65303368的博客