Hadoop
文章平均质量分 78
hadoop生态圈搭建笔记
刘李404not found
知识分享是个美德
展开
-
kudu实践
文章目录MySQL单表迁移至Kudu1、将MySQL中的表导出为csv文件格式2、将CSV文件上传至HDFS中3、impala临时表4、kudu表MySQL单表迁移至Kudu1、将MySQL中的表导出为csv文件格式我这里使用的是Navicat自带的导出功能导出格式 CSV 文件( *.csv )随便从库中选择一个表选择要导出的字段,一般都是全选文本标识符号选 ”无“,不然导出的数据全部带标识符。导出结束2、将CSV文件上传至HDFS中因为impala不支持原创 2021-08-23 18:33:45 · 949 阅读 · 0 评论 -
Kudu优化
导入数据全量导入kudu先用sqoop把关系数据库数据导入临时表,再用impala从临时表导入kudu目标表注意:由于sqoop从关系型数据直接以parquet格式导入hive会有问题,这里默认hive的表都是text格式;每次导完到临时表,需要做invalidate metadata 表操作,不然后面直接导入kudu的时候会查不到数据客户端除了查询,建议所有impala操作都在i...转载 2020-01-21 17:15:32 · 736 阅读 · 0 评论 -
Impala介绍
一、Impala介绍Impala是用于处理存储在Hadoop集群中的大量数据的MPP(大规模并行处理)SQL查询引擎。 它是一个用C ++和Java编写的开源软件。 与其他Hadoop的SQL引擎相比,它提供了高性能和低延迟。换句话说,Impala是性能最高的SQL引擎(提供类似RDBMS的体验),它提供了访问存储在Hadoop分布式文件系统中的数据的最快方法。1.1 Impala的功能...原创 2019-09-06 11:26:02 · 189 阅读 · 0 评论 -
Impala优化
一、Impala实例角色Impala DaemonImpala daemon(也称为impalad)在安装Impala的每个节点上运行,与DataNode运行在同一节点上,由Impalad进程表示,一个datanode对应一个impalad。 这是ImpalaServer的核心组件,即运行在集群每个node上的impalad守护进程。它负责读写数据文件,接受impala-shell、Hue、J...原创 2020-01-21 13:52:20 · 338 阅读 · 0 评论 -
Hbase数据备份与还原(Export/Import方式)
一、准备工作1.1 准备两台装好Hbase的服务器服务器名IPserver1192.168.48.128server4192.168.48.1311.2 Server1的Hbase创建一个带数据的table1表创建table1表hbase(main):012:0> create 'table1', 'tab1_id'hbase(main):013...原创 2019-04-29 18:04:09 · 1913 阅读 · 0 评论 -
Docker入门(十三):制作hbase2.1.0集群镜像
文章目录一、环境二、运行hadoop集群镜像三、配置环境变量(三台服务器同步操作)四、修改配置文件(三台服务器同步操作)4.1 配置hbase-env.sh文件4.2 配置hbase-site.xml文件4.3 配置regionservers和backup-masters文件4.4 删除slf4j-log4j12-1.7.25.jar4.5 复制htrace-core-3.1.0-incubati...原创 2019-08-01 17:30:14 · 1307 阅读 · 0 评论 -
Hbase数据备份与还原(Snapshot方式)
一、准备工作1.1 准备两台装好Hbase的服务器服务器名IPserver1192.168.48.128server4192.168.48.1311.2 Server1的Hbase创建一个带数据的table1表创建table1表hbase(main):012:0> create 'table1', 'tab1_id'hbase(main):013...原创 2019-04-30 10:19:04 · 1463 阅读 · 0 评论 -
Hive不支持update、delete解决方案
一、报错一:Attempt to do update or delete using transaction manager that does not support these operations.CM修改hive配置服务端hive.compactor.initiator.on – truehive.compactor.worker.threads – 1hive.txn.man...原创 2019-09-19 11:38:50 · 7762 阅读 · 0 评论 -
SQL Server全表导入Hive遇到的问题附解决方案
一、场景源数据库:SQL server 拥有1700多张表100G的数据目标数据库:Hive使用工具:sqoop二、全表导入sudo -u hdfs \sqoop import-all-tables \--connect 'jdbc:sqlserver://192.168.0.212:1433;username=sa;password=xxxx;database=PORTAL_HIS...原创 2019-09-11 19:32:47 · 494 阅读 · 0 评论 -
Hive报错:Exception in thread "main" java.lang.OutOfMemoryError: Java heap space
报错Exception in thread "main" java.lang.OutOfMemoryError: Java heap space at java.util.Arrays.copyOf(Arrays.java:3332) at java.lang.AbstractStringBuilder.ensureCapacityInternal(AbstractStringBuilder...原创 2019-08-06 18:31:01 · 1730 阅读 · 0 评论 -
Hive启动hiveServer2+beeline连接Hive+可视化工具dbeaver连接Hive
一、准备1.1 安装环境[root@master ~]# cat /etc/redhat-release CentOS Linux release 7.3.1611 (Core) 1.2 依赖服务mysql5.7:https://blog.csdn.net/qq_39680564/article/details/84943471hadoop-3.0.3:https://blog.cs...原创 2019-05-08 09:28:29 · 2396 阅读 · 0 评论 -
Hive查询效率详解
只查了十几条数据,用了16.497秒,效率还是很低。之后又查询了几次,即使查询数据量达到一百万条,总用时也是在15秒左右徘徊多次实验的结果,可见Hive查询的时间是由MapReduce决定的,而不是由查询的数据量影响的。数据量MapReduce耗时总耗时其他10条5.85 sec13.756 sec7.906 sec10,000条5.94 sec1...原创 2019-08-27 16:23:12 · 2019 阅读 · 0 评论 -
Hive ACID表相关操作
文章目录ORC介绍创建ORC表删除ORC表查看ORC表ORC插入语句ORC更新语句ORC删除语句ORC介绍如果一个表要实现update和delete功能,该表就必须支持ACID,而支持ACID,就必须满足以下条件:表的存储格式必须是ORC(STORED AS ORC);表必须进行分桶(CLUSTERED BY (col_name, col_name, …) INTO num_bucket...原创 2019-09-23 11:18:02 · 1609 阅读 · 0 评论 -
Hbase表映射Hive表三种方法
一、准备1.1 官方文档https://cwiki.apache.org/confluence/display/Hive/HBaseIntegration1.2 依赖服务Hive3.1.1:https://blog.csdn.net/qq_39680564/article/details/89714184Hbase2.1.0:https://blog.csdn.net/qq_396805...原创 2019-05-08 11:21:07 · 5634 阅读 · 2 评论 -
Linux CentOS7 安装Hive3.1.1
一、安装前准备1.1 安装环境[root@server1 ~]# cat /etc/redhat-release CentOS Linux release 7.6.1810 (Core)1.2 依赖服务jdk1.8:https://blog.csdn.net/qq_39680564/article/details/82768938mysql5.7:https://blog.csdn....原创 2019-04-30 18:06:29 · 1417 阅读 · 0 评论 -
sqoop案例:MySQL迁移至Hive
数据库主机测试库MySQL192.168.1.22confluence_testHive集群confluence_test文章目录可选参数说明1、查看MySQL中的所有数据库2、查看confluence_test库中的表3、查看user_mapping表中的数据4、将user_mapping表导入Hive的confluence_test库5、将user_m...原创 2019-11-27 14:03:28 · 255 阅读 · 0 评论 -
使用Sqoop将MySQL数据导入Hive
一、说明MySQL数据导入Hive方法与导入HDFS类似:https://blog.csdn.net/qq_39680564/article/details/100081659,Sqoop只是将数据导入HDFS后再转成Hive表二、Hive参数Hive除了自己的参数,同样也支持import的参数,见导入HDFS文章--hive-home <dir> 覆盖 $HIVE_HOM...原创 2019-08-27 16:37:53 · 862 阅读 · 0 评论 -
Sqoop1.47安装手册
一、下载wget https://mirrors.tuna.tsinghua.edu.cn/apache/sqoop/1.4.7/sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz mv sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz /opttar -zxvf sqoop-1.4.7.bin__hadoop-2.6.0.tar.gzmv s...原创 2019-08-07 17:50:38 · 348 阅读 · 0 评论 -
Sqoop导入文件格式对比Text、Parquet、Avro、Sequence
一、速度Text19/09/05 16:47:35 INFO mapreduce.ImportJobBase: Transferred 242.2289 MB in 21.3893 seconds (11.3248 MB/sec)Parquet19/09/05 16:53:09 INFO mapreduce.ImportJobBase: Transferred 77.1938 MB in...原创 2019-09-05 17:05:49 · 1099 阅读 · 0 评论 -
使用Sqoop将MySQL数据导入HDFS
文章目录一、测试MySQL链接1.1 查看所有数据库1.2 查看test_mysql库中的表1.3 查询cars表中的数据二、导入HDFS2.1 单表导入2.1.1 使用默认参数导入2.1.2 设置字段分隔符2.1.3 指定HDFS目录2.1.4 指定map数2.1.5 指定文件保存格式2.1.6 追加已存在的数据集上2.1.7 从表中导出指定的一组列的数据2.1.8 指定字符串代替null值2....原创 2019-08-26 18:22:04 · 967 阅读 · 0 评论 -
解决root用户对HDFS文件系统操作权限不够问题
HDFS文件系统的目录基本都属于supergroup用户组,所以就把用户添加到该用户组,即可解决很多权限问题。1、在Linux执行如下命令增加supergroupgroupadd supergroup2、如将用户root增加到supergroup中usermod -a -G supergroup root3、同步系统的权限信息到HDFS文件系统sudo -u hdfs hdfs d...原创 2019-09-23 18:02:05 · 6052 阅读 · 0 评论 -
HDFS的”时间机器“--Trash回收站
文章目录一、场景二、开启回收站2.1 原生Hadoop配置三、测试一、场景很多用过HDFS的人都会有过这种经历,在HDFS上操作一组数据,不小心执行了一个命令“hdfs dfs -rm -r /xxx/xxx”,没有删除提示,整个目录下几个G、T的数据,一下子就没有了。删除之后才会发现这个目录下的数据有多重要,这个时候先不要准备删库跑路。rm -rf /不好解决,但是在HDFS中有个功能可以轻...原创 2020-03-17 17:32:16 · 467 阅读 · 0 评论 -
CDH6.x学习笔记(二)准备安装包
一、准备MySQL安装包创建目录mkdir -p /root/hadoop_CHD/mysql进入官网下载MySQL5.7:https://dev.mysql.com/downloads/mysql/5.7.html#downloads二、准备MySQL JDBC驱动创建目录mkdir -p /root/hadoop_CHD/mysql-jdbcwget https://dev...原创 2019-08-11 15:06:54 · 1420 阅读 · 1 评论 -
CDH6.3集群部署--研发环境安装实录
文章目录一、主机二、准备安装包2.1 MySQL 5.7.272.2 MySQL驱动2.3 cloudera-manager包2.4 parcel数据包2.5 目录树三、初始化主机环境3.1 设置主机名3.2 关闭防火墙和Selinux3.3 启动NTP服务四、安装4.1 搭建本地yum源4.2 安装jdk4.3 安装MySQL4.4 安装Cloudera Manager4.5 配置本地Parce...原创 2019-09-17 15:59:43 · 6159 阅读 · 16 评论 -
CDH6.3.0 报错汇总
报错一、Cloudera 建议将 /proc/sys/vm/swappiness 设置为最大值 10。当前设置为 30。使用 sysctl 命令在运行时更改该设置并编辑 /etc/sysctl.conf,以在重启后保存该设置。您可以继续进行安装,但 Cloudera Manager 可能会报告您的主机由于交换而运行状况不良。解决方案临时生效:sysctl vm.swappiness=...原创 2019-08-22 13:50:24 · 15491 阅读 · 0 评论 -
CDH集群日志垃圾清理记录
文章目录CDHHDFSHiveHueimpalaKuduYarnZooKeeper其他CDHActivity Monitor、Service Monitor、Host Monitorfor i in `ls /var/log/cloudera-scm-firehose/*.log.out`;do cat /dev/null > $i;doneAlert Publisherfor i in `ls /var/log/cloudera-scm-alertpublisher/*.log.原创 2021-09-06 14:35:12 · 569 阅读 · 0 评论 -
CDH6.x学习笔记(三)搭建Cloudera Manager 6.3.0
一、安装环境环境准备:https://blog.csdn.net/qq_39680564/article/details/98957057安装包准备:https://blog.csdn.net/qq_39680564/article/details/99191318二、搭建本地yum源2.1安装httpd和createrepoyum -y install httpd createrepo...原创 2019-08-11 16:18:12 · 2194 阅读 · 0 评论 -
CDH各角色功能简介
文章目录Cloudera ManagementEvent ServerHost MonitorActivity MonitorService MonitorAlert PublisherReports ManagerHDFSNameNodeDataNodeSecondaryNameNodeStandby NamenodeJournalNodeFailover ControllerNFS Gatew...原创 2020-01-21 10:57:50 · 4067 阅读 · 0 评论 -
CDH6.x学习笔记(一)部署前准备
官方文档:https://www.cloudera.com/documentation/enterprise/6/6.3/topics/installation_reqts.html一、机器配置阿里云的主机:公网IP内网IP主机名内存CPU硬盘操作系统47.92.54.60172.26.102.105cm.cdh8G2核50GCentOS 7.6...原创 2019-08-09 15:51:32 · 650 阅读 · 0 评论 -
修改CDH各主机的IP
公司搬家,导致服务器网络变化,现在需要修改每个主机的IP,在管理平台并没有找到修改IP的功能,所以只能改库了。第一步:关闭cloudera服务systemctl stop cloudera-scm-server.service第二步:修改数据库内容使用scm用户的密码登陆MySQLmysql> use scm;mysql> select * from HOSTS;+--...原创 2019-11-25 16:26:31 · 531 阅读 · 0 评论 -
CDH6.x学习笔记(四)安装第一个集群
一、初始化CM二、添加第一个集群原创 2019-08-12 14:41:45 · 888 阅读 · 2 评论 -
Linux CentOS 7 搭建 Hadoop3 分布式集群
一、准备三台服务器需要安装JDK:https://blog.csdn.net/qq_39680564/article/details/82768938需要配置免秘钥与修改主机名:https://blog.csdn.net/qq_39680564/article/details/89498678需要安装zookeeper集群https://blog.csdn.net/qq_3968056...原创 2019-04-25 11:53:08 · 1530 阅读 · 1 评论 -
Hadoop环境部署文档-外网安装
一、部署环境本机IP:192.168.152.135操作系统:CentOS Linux release 7.6.1810 (Core)内核:3.10.0-957.el7.x86_64cup:4线程硬盘:1T内存:16G二、所需安装包hadoop环境镜像hadoop-hbase-master.tarhadoop-hbase-slave1.tarhadoop-hbase-sla...转载 2019-08-05 14:58:49 · 373 阅读 · 0 评论 -
Hadoop环境部署文档
一、部署环境本机IP:192.168.0.222系统:CentOS Linux release 7.6.1810 (Core)内核:3.10.0-957.el7.x86_64二、安装docker-ceyum install -y yum-utils device-mapper-persistent-data lvm2 && yum-config-manager --add...原创 2019-08-05 14:58:01 · 314 阅读 · 0 评论 -
Linux CentOS7 搭建Hadoop3.0.3+HBASE2.1.0+zookeeper-3.4.10分布式集群
一、准备三台服务器需要安装JDK:https://blog.csdn.net/qq_39680564/article/details/82768938需要配置免秘钥与修改主机名:https://blog.csdn.net/qq_39680564/article/details/89498678需要安装zookeeper集群:https://blog.csdn.net/qq_396805...原创 2019-04-25 14:26:43 · 902 阅读 · 0 评论 -
Linux CentOS7.6 Hadoop3.0.3+HBASE2.1.0单机部署
1、准备虚拟机一台:192.168.48.128Linux环境[root@server1 ~]# cat /etc/redhat-release CentOS Linux release 7.6.1810 (Core)安装JDK:https://blog.csdn.net/qq_39680564/article/details/82768938JDK版本:[root@server1...原创 2019-05-29 16:40:07 · 2029 阅读 · 2 评论 -
Hadoop2.x与Hadoop3.x对比
参考:https://blog.csdn.net/c36qUCnS2zuqF6/article/details/82111579Hadoop 2.xHadoop 3.x开源是是最低支持Java版本java 7java 8容错通过复制来处理容错通过Erasure编码处理容错数据平衡使用HDFS平衡器使用Intra-data节点平衡器存储...原创 2019-08-08 13:12:42 · 751 阅读 · 0 评论 -
Docker入门(十二):制作hadoop3.0.3集群镜像
文章目录一、环境二、运行zookeeper集群镜像三、配置环境变量四、修改配置文件(三台服务器同步操作)4.1 修改hadoop-env.sh文件4.2 修改core-site.xml文件4.3 修改yarn-site.xml文件4.4 修改mapred-site.xml文件4.5 修改hdfs-site.xml文件(master)4.6 修改hdfs-site.xml文件(slave1)4.7 ...原创 2019-08-01 14:52:35 · 2349 阅读 · 1 评论 -
Hadoop-CDH6.3.0 Hue集成impala
一、修改Hue配置重新启动Hue二、Impala on HiveHue页面选择Impala同步hive数据invalidate metadata;原创 2020-01-17 09:26:45 · 828 阅读 · 0 评论