大数据
文章平均质量分 69
大数据开发
い木乄子゛
这个作者很懒,什么都没留下…
展开
-
idea调试Spark程序时报错:Could not load native gpl library
问题描述:在使用idea调试spark时报错:原因分析:在代码中开启了lzo压缩,而在windows本地环境中找不到lzo压缩的配置。def main(args: Array[String]): Unit = { // 设置执行用户 System.setProperty("HADOOP_USER_NAME", "hive") val conf: SparkConf = new SparkConf() // 使用kryo序列化 ....原创 2021-12-18 14:44:00 · 1681 阅读 · 1 评论 -
Spark的12种WordCount
1.groupBy函数签名def groupBy[K](f: T => K)(implicit kt: ClassTag[K]): RDD[(K, Iterable[T])]函数说明将数据根据指定的规则进行分组, 分区默认不变,但是数据会被打乱重新组合,我们将这样的操作称之为shuffle。极限情况下,数据可能被分在同一个分区中一个组的数据在一个分区中,但是并不是说一个分区中只有一个组val conf: SparkConf = new SparkConf() .setAppNa原创 2020-09-15 15:56:04 · 410 阅读 · 0 评论 -
对HDFS上的文件或文件夹权限操作
使用API对HDFS上的文件或文件夹权限操作package com.hondali.permission;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.*;import org.apache.hadoop.fs.permission.FsAction;import org.apache.hadoop.fs.permission.FsPermission;import java.io.IOExce原创 2020-07-14 14:43:16 · 891 阅读 · 0 评论 -
Hadoop之hdfs 的api操作
1、获取指定目录下的全部文件及文件夹 /** * 列出 {@param path} 下的文件和文件夹 * * @param fs 文件系统实例 * @param path 路径 * @return 返回一个目录列表 * @throws IOException 对于任何IO错误 */ public static List<String> listFileAndDir(FileSystem fs, Path p原创 2020-07-13 21:21:05 · 310 阅读 · 0 评论 -
CentOS7安装sqoop-1.4.7
1、下载sqoopwget https://mirrors.tuna.tsinghua.edu.cn/apache/sqoop/1.4.7/sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz2、解压和重命名文件mkdir /usr/local/sqooptar -zxvf sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz -C /usr/local/sqoopcd /usr/local/sqoopmv sqoop-1.4.7.bin__ha原创 2020-06-28 23:02:35 · 487 阅读 · 0 评论 -
Hadoop3.1.3 + Hbase2.1.7 设置Snappy压缩算法
一、查看Linux是否有系统自带的snappy库,如果有删除掉自带的snappy库① 查看Linux是否有系统自带的snappy库ll /usr/lib64 | grep snappy② 删除掉自带的snappy库yum -y remove snappy 二、安装snappy本地库① 下载snappy:wget https://src.fedoraproject.org/repo/pkgs/snappy/snappy-1.1.4.tar.gz/sha512/873f655713611f4原创 2020-06-27 20:10:46 · 1425 阅读 · 15 评论 -
Hive内置函数
关系运算符名称语法描述=A=B等值比较:如果表达式A与表达式B相等,则为TRUE;否则为FALSE<>A <> B不等值比较:如果表达式A为NULL,或者表达式B为 NULL,返回NULL;如果表达式A与表达式B不相等,则 为TRUE;否则为FALSE<A < B小于比较:如果表达式A为NULL,或者表达式B为 NULL,返回NULL;如果表达式A小于表达式B,则为 TRUE;否则为FALSE<=A <=原创 2020-06-18 16:20:19 · 243 阅读 · 0 评论 -
Apache Ambari 2.7.4 + HDP3.1.4 安装
Apache Ambari 2.7.4 + HDP3.1.4 安装版本信息机器配置一、在三台服务器分别修改hosts二、在三台服务器分别修改hostname(需要重启才能生效)三、配置免密四、安装JDK五、HDP下载地址六、安装依赖七、关闭防火墙八、关闭SELinux九、同步时间十、解压安装包到/var/www/html目录下,准备制作本地源十一、开启httpd服务十二、制作本地源十三、检查站点是否做好十四、安装mysql十五、下载mysql驱动包十六、配置本地源repo十七、在hadoop33节点安装am原创 2020-06-09 10:59:25 · 1544 阅读 · 4 评论 -
spark报数据越界异常:10582
Exception in thread "main" java.lang.ArrayIndexOutOfBoundsException: 10582 at com.thoughtworks.paranamer.BytecodeReadingParanamer$ClassReader.accept(BytecodeReadingParanamer.java:563) at com.thoughtworks.paranamer.BytecodeReadingParanamer$ClassReader....原创 2020-05-18 14:24:50 · 1178 阅读 · 2 评论 -
hadoop动态添加和动态删除节点
目录一、动态添加节点1.前提准备2.系统配置3.hadoop动态添加节点二、动态删除节点1.动态删除DataNode节点与NodeManager节点2.动态删除DataNode节点与NodeManager节点的另一种方式一、动态添加节点1.前提准备假设之前有三台服务器来安装Hadoop192.168.0.102 hadoop102192.168.0.103 hadoop103192.168.0.104 hadoop104现在增加一台机器192...原创 2020-05-15 17:19:18 · 931 阅读 · 0 评论 -
hadoop3.1.3下MapReduce操作出现错误: 找不到或无法加载主类org.apache.hadoop.mapreduce.v2.app.MRAppMaster 问题解决方法
Hadoop3.1.3下成功安装后,进行MapReduce操作出现错误:错误: 找不到或无法加载主类org.apache.hadoop.mapreduce.v2.app.MRAppMaster解决办法:① 在命令行下输入如下命令,并将返回的地址复制。$ hadoop classpath/usr/local/hadoop/hadoop-3.1.3/etc/hadoop:/usr/local/hadoop/hadoop-3.1.3//share/hadoop/common/lib/*:/usr/loc原创 2020-05-14 16:50:29 · 6496 阅读 · 9 评论 -
Hadoop 格式化时报错 java.lang.IllegalArgumentException: No class configured for qournal
hadoop配置完成后,格式化时报错,错误信息如下:2020-05-14 10:48:55,410 ERROR namenode.NameNode: Failed to start namenode.java.lang.IllegalArgumentException: No class configured for qournalat org.apache.hadoop.hdfs.server.namenode.FSEditLog.getJournalClass(FSEditLog.java:原创 2020-05-14 16:19:27 · 1207 阅读 · 0 评论 -
Hadoop 压缩支持检查命令
Hadoop 压缩支持检查命令:hadoop checknative原创 2020-05-14 16:08:12 · 862 阅读 · 0 评论 -
Hadoop HA 分布式安装
假设以三台服务器来安装HadoopIP hostname 192.168.0.102 hadoop102 192.168.0.103 hadoop103 192.168.0.104 hadoop104 组件版本组件 版本 Java 1.8 zookeeper 3....原创 2020-01-02 22:47:09 · 248 阅读 · 0 评论