大数据
文章平均质量分 57
大数据相关
abcdggggggg
喜欢的可以点赞收藏~~
展开
-
CDH 6.x版本 HBase基础调优参数
以下是CDH HBase的基础调优原创 2024-02-18 14:28:31 · 821 阅读 · 0 评论 -
HBase 提升写入性能的参数 亲测有用!
提升HBase的写入性能,主要为两个参数hbase.hstore.blockingStoreFiles和hbase.wal.provider原创 2024-02-18 14:21:17 · 519 阅读 · 0 评论 -
Hive MetaStore 启动配置
1.MetaStore介绍Hive可以启动一个叫做MetaStore的服务,该服务在Hive的客户端启动,用户通过客户端连接到MetaStore,然后和一个数据库(例如:Mysql)进行通信。该数据库是用于存储Hive的元数据信息。2.MetaStore配置需要修改hive-site.xml配置文件,配置端口 <property> <name>hive.metastore.port</name> <value>9083&...原创 2022-05-12 15:15:04 · 5652 阅读 · 0 评论 -
Hive MR和Tez 启用Local模式
1.说明 启动local模式,就是让hive的任务不运行在yarn上面。直接当前的服务器执行2.优点当我们对Hive的源码进行Debug,且代码需要Debug到每个task内部时,如果任务是执行在yarn模式的话,那么是无法打断点的,需要进入local模式才能打断点3.MR当引擎为MR时,需要修改以下参数,可以修改配置文件hive-site.xml,也可以通过set来生效3.1 hive-site.xml<property> <name>h...原创 2022-04-19 20:32:05 · 2609 阅读 · 0 评论 -
Spark 简单介绍 基本概念 和MapReduce的区别
1.概述Spark是一种快速而通用的集群计算的平台,Spark 的一个主要特点就是能够在内存中进行计算,因而更快。2.特点与Hadoop的MapReduce相比,Spark基于内存的运算要快100倍以上,基于硬盘的运算也要快10倍以上。Spark实现了高效的DAG执行引擎,可以通过基于内存来高效处理数据流。Spark提供了统一的解决方案。Spark可以用于批处理、交互式查询(Spark SQL)、实时流处理(Spark Streaming)、机器学习(...原创 2022-04-10 00:09:55 · 1316 阅读 · 0 评论 -
Spark RDD 弹性分布式数据集 简单理解
1.RDDRDD是Spark的最基本抽象,是对分布式内存的抽象使用,实现了以操作本地集合的方式来操作分布式数据集的抽象实现。RDD是Spark最核心的东西,它表示已被分区,不可变的并且能够被并行操作的数据集合,不同的数据集格式对应不同的RDD实现。RDD必须是可序列化的。RDD可以cache到内存中,每次对RDD数据集的操作之后的结果,都可以存放到内存中,下一个操作可以直接从内存中输入,省去了MapReduce大量的磁盘IO操作。这对于迭代运算比较常见的机器学习算法,交互式数据挖掘来...原创 2022-04-10 00:08:07 · 510 阅读 · 0 评论 -
Spark Shuffle简介 Shuffle分区Id ShuffleWriter
转载 2022-03-25 21:10:50 · 129 阅读 · 0 评论 -
Hive 基于Tez引擎 map和reduce数的参数控制原理与调优经验
Hive on Tez的引擎调优 基于Map数和Reduce数的调优原创 2022-03-25 21:06:21 · 9738 阅读 · 0 评论 -
Apache Hive 问题 Exception: Too many counters: 121 max=120
报错信息如下:INFO : Exception: Too many counters: 121 max=120at org.apache.tez.common.counters.Limits.checkCounters(Limits.java:86)at org.apache.tez.common.counters.Limits.incrCounters(Limits.java:93)at org.apache.tez.common.counters.AbstractCounterGroup..原创 2021-11-02 19:33:45 · 2546 阅读 · 0 评论 -
Hive Aapche 设置为事务表(ACID)This command is not allowed on an ACID table xxx with a non-ACID transaction
Apache Hive中默认的创建的表为非事务表,如果需要将表设置为事务表需要修改以下参数:<property> <name>hive.support.concurrency</name> <value>true</value></property><property> <name>hive.txn.manager</name> <value>...原创 2021-10-30 10:18:32 · 2724 阅读 · 3 评论 -
Hive 基于常用参数的调优(Tez和MR引擎)
1.说明Hive的常用计算引擎有MR、Tez和Spark,本篇博客主要是基于MR和Tez的参数调优,由于Hive的任务是在Yarn上提交的,所以Yarn作为一个资源调度器,可用的资源也需要进行配置。2.Yarn参数个性化配置配置文件名:yarn-site.xml参数名 推荐值 参数说明 yarn.nodemanager.resource.cpu-vcores 当前数据节点的可用最大CPU核数*80% Container可以使用的的CPU数 yarn...原创 2021-10-30 10:09:52 · 3414 阅读 · 0 评论 -
HDFS问题:DataNode is out of memory. Will retry in 30 seconds unable to create new native thread
问题日志2021-03-16 10:04:24,355 ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: DataNode is out of memory. Will retry in 30 seconds.java.lang.OutOfMemoryError: unable to create new native threadat java.lang.Thread.start0(Native Method)at java...原创 2021-03-19 15:34:01 · 1219 阅读 · 0 评论 -
Hadoop NameNode重新格式化 Failed to add storage directory [DISK]file
1.介绍在NameNode重新格式化之前,需要删除DataNode上的数据和log日志。不然会造成NameNode和DataNode的clusterID不一致的问题。会有以下报错信息:Failed to add storage directory [DISK]file2.重新格式化流程(1)停止Hadoop服务在NameNode上执行需要已经配置好了环境变量stop-all.sh(2)删除DataNode上的数据和log日志查看hdfs-site.xml中的..原创 2021-03-07 18:18:05 · 3385 阅读 · 1 评论 -
Zookeeper(三)配置文件zoo.conf 常用命令 异常启动 Unable to start AdminServer
Zookeeper运行在集群模式下,把所有安装Zookeeper的主机统称为为quorum,quorum中的所有机器都有相同的配置文件,以下配置文件以三个机器为例,配置文件名为zoo.conf主机名为:node1 node2 node31.配置zoo.conf文件zoo.conf文件在conf目录下tickTime=2000dataDir=/hadoop/zookeeperdataLogDir=/hadoop/zookeeperclientPort=2181initLim.原创 2021-03-07 17:56:07 · 1028 阅读 · 0 评论 -
Zookeeper(一) 基础原理 数据一致性 在HBase和Kafka中的作用 配置奇数台原因
1.定义它是一个分布式服务框架,是一个为分布式应用提供一致性协调服务的中间件,它主要是用来解决分布式应用中经常遇到的一些数据管理问题。(1)应用场景Zookeeper 从设计模式角度来看,是一个基于观察者模式设计的分布式服务管理框架,它负责存储和管理数据,然后接受观察者的注册,一旦这些数据的状态发生变化,Zookeeper 就将负责通知已经在 Zookeeper 上注册的那些观察者做出相应的反应,从而实现集群中类似 Master/Slave 管理模式。 统一命名服务(Name...原创 2020-05-15 19:49:49 · 547 阅读 · 0 评论 -
Apache Hive 3.X版本 HiveServer2 insert overwrite大量数据 报错内存溢出 GC overhead limit exceeded return code -10
1.执行语句insert overwrite 语句,将text格式的表导入到orc格式的表中,数据量为10G2.报错内容报错信息,通过hive.log查看,也可以通过HiveServer2 的Web:http://${自定义IP}:10002/查看org.apache.hive.service.cli.HiveSQLException: Error while processing statement: FAILED: Execution Error, return code ...原创 2021-03-05 09:47:27 · 1873 阅读 · 3 评论 -
大数据集群安装(四)Hive Apache集群安装部署 详细 启动HiveServer2
本次测试3台集群(node1(192.168.1.2),node2(192.168.1.4),node3(192.168.1.6)),所有的主服务都安装在node1节点,操作系统为CentOS7.61.环境准备参考博客:https://blog.csdn.net/qq_35260875/article/details/1113151102.安装Zookeeper参考博客:https://blog.csdn.net/qq_35260875/article/details/...原创 2021-01-18 12:02:14 · 593 阅读 · 0 评论 -
大数据集群安装(三)Hadoop Apache集群安装部署 详细 (包括环境准备和Zookeeper安装)
本次测试3台集群(node1(192.168.1.2),node2(192.168.1.4),node3(192.168.1.6)),所有的主服务都安装在node1节点,操作系统为CentOS7.61.环境准备参考博客:https://blog.csdn.net/qq_35260875/article/details/1113151102.安装Zookeeper参考博客:https://blog.csdn.net/qq_35260875/article/details/111322...原创 2020-12-24 11:40:13 · 224 阅读 · 0 评论 -
大数据集群安装(二)Zookeeper Apache集群安装部署 步骤简单
本次测试3台集群(node1(192.168.1.2),node2(192.168.1.4),node3(192.168.1.6)),所有的主服务都安装在node1节点,操作系统为CentOS7.61.环境准备参考博客:《大数据集群安装(一) Linux环境准备 步骤简单 详细》https://blog.csdn.net/qq_35260875/article/details/1113151102.下载Zookeeper(1)下载下载地址:https://arc...原创 2020-12-17 19:45:36 · 167 阅读 · 0 评论 -
大数据集群安装(一) Linux环境准备 步骤简单 详细
本次测试3台集群(node1(192.168.1.2),node2(192.168.1.4),node3(192.168.1.6)),所有的主服务都安装在node1节点,操作系统为CentOS7.61.设置语言和时区(1)设置默认语言每个节点都要设置echo $LANG默认语言为en_US.UTF-8,则跳过。默认语言非en_US.UTF-8,则执行以下步骤:echo 'export LANG=en_US.UTF-8' >> ~/.bashrc重新登录当前会..原创 2020-12-17 15:46:32 · 361 阅读 · 3 评论 -
Hive 压缩种类介绍 常用压缩参数 hive.exec.compression.intermediate 中间压缩 压缩优化
1.Hive压缩尽管Hadoop的文件系统支持对于非压缩数据的线性扩展存储,但是对数据进行压缩还是有很多好处的。压缩通常能节约磁盘空间。压缩同样可以增加吞吐量和性能。压缩和解压缩会增加额外的CPU开销,不过,通过减少载入内存的数据量而提高I/O吞吐量会更加提高网络传输性能。Hadoop的job通常是I/O密集型而不是CPU密集型的。如果是这样的话,压缩可以提高性能。不过如果用户的job是CPU密集型的话,那么使用压缩可能会降低执行性能。确定是否进行压缩的唯一方法就是尝试不同的选择,并测量对...原创 2020-12-13 17:01:31 · 2820 阅读 · 5 评论 -
Hive 常用的DDL语句大全 建库建表 详细
1.创建库(1)语法结构CREATE (DATABASE|SCHEMA) [IF NOT EXISTS] database_name [COMMENT database_comment] //关于数据块的描述 [LOCATION hdfs_path] //指定数据库在HDFS上的存储位置 [WITH DBPROPERTIES (property_name=property_value, ...)]; //指定数据块属性默认地址:/use...原创 2020-12-10 19:21:37 · 3301 阅读 · 2 评论 -
Hive 基于MapReduce引擎 map和reduce数的参数控制原理与调优经验
1.概述主要对基于MR的map数和reduce数测试与调优2.数据准备(1)表信息本次测试的表和sql都是使用的TPC-DS,表文件存储格式为text 表名 是否压缩 总数 占用空间 文件数 date_dim 否 73049 9.8 M 1 item ...原创 2020-11-26 11:56:29 · 2371 阅读 · 0 评论 -
Hadoop hdfs dfs命令 最常见经常使用的命令 入门推荐
1.常用命令下列的hdfs命令,都是在实际工作中经常会用到的,如果要看全部的命令可以直接使用hdfs dfs,会显示所有的命令。使用hdfs dfs -help能够查看每个命令的使用方法(1)help hdfs命令帮助hdfs dfs -help(2)ls 查看hdfs目录下内容命令格式:hdfs dfs -ls [文件目录]hdfs dfs -ls /结果:drwxr-xr-x - hdfs hdfs 0 2020-11-04 11:36 /HiBenc...原创 2020-11-23 10:02:15 · 10350 阅读 · 0 评论 -
Hive 数据存储格式 orc格式
修改查看当前默认文件存储格式set hive.default.fileformat;set hive.default.fileformat=Orc;1.数据存储格式(1)textText是最简单最常见的存储格式,它是纯文本记录,也是Hive的默认格式。# 存储方式行存储# 特点空间利用率低有序列化和反序列话的开销建表语句:create table inventory( inv_date_sk int, inv_item_sk ...原创 2020-10-21 10:54:28 · 8561 阅读 · 0 评论 -
HBase 数据导入 批量导入 BulkLoad ImportTsv HFile格式
网址:https://www.jianshu.com/p/2b43903103451.BulkLoad介绍BulkLoad是HBase将海量数据写入到集群的一种方式。运行一个Mapreduce作业,使用HFileOutputFormat输出HBase数据文件,使得输出的HFile文件可以适应单个region,使用TotalOrderPartitioner类将map输出结果分区到各个不同的key区间中,每个key区间都对应着HBase表的region。之后使用completebulkload工具将..原创 2020-09-20 12:44:26 · 1034 阅读 · 0 评论 -
Kafka topic常用命令 查看 创建 修改 彻底删除topic(删除数据目录和在zk上的信息)
1.创建topic命令格式:注意空格./kafka-topics.sh --create --topic topic名称--partitions分区数--replication-factor备份数--zookeeperZooKeeper的任意一个节点或者全部的IP:Port/kafka示例:./kafka-topics.sh --zookeeper 192.168.61.102:24002,192.168.61.202:24002,192.168.61.104:24002/ka...原创 2020-09-17 19:31:00 · 8900 阅读 · 0 评论 -
Hive 四种排序方法功能和使用
1.Order By(1)功能根据指定字段进行全局排序,和关系型数据库的用法一样,会生成一个ReduceTask,默认是升序。实际中用的比较多(2)例子--升序select * from emp order by sal;--降序select * from emp order by sal desc;--多列排序select ename, deptno, sal from emp order by deptno, sal;2.Sort By(1)功能根.原创 2020-05-25 19:51:55 · 1923 阅读 · 0 评论 -
Hive 数据倾斜 常用解决办法
来源:https://www.cnblogs.com/qingyunzong/p/8847597.html1.数据倾斜的原因数据分布不均匀,造成数据热点问题2.数据倾斜的现象 Hive任务进度长时间维持在99%或者100%的附近,进度好久没变化。通过查看任务监控页面Web,发现只有一个或者少数的reduce任务未完成,因为其处理的数据量和其他的reduce差异过大。单一reduce处理的记录数和平均记录数相差过多,导致最长时间远大于任务的平均时长。3.数据倾斜情况...原创 2020-05-24 20:22:04 · 3525 阅读 · 0 评论 -
MapReduce WordCount代码和编码规范详细说明
来源: https://www.cnblogs.com/qingyunzong/p/8573001.html1.WordCount代码自带的wordCount程序执行本地执行hadoop jar hadoop-mapreduce-examples-2.7.5.jar wordcount /wc/input1/ /wc/output1/查看结果hadoop fs -cat /wc/output1/part-r-00000wordCount代码如下:package com.转载 2020-05-22 16:53:07 · 514 阅读 · 0 评论 -
HBase 系统架构 HMaster、RegionServer
1.整体架构 HBase系统架构由Client、Zookeeper、HMaster、RegionServer、Region、Store、HLog、HDFS等部件组成。 HBase存储结构图如下: 2.Client 使用HBase RPC机制(远程)与HMaster和HRegionServer进行通信。 Client 与HMaster进行管理类操作; Client 与HRegionServer进行数据读写类操作。 3.Zookeeper...转载 2020-05-21 20:10:55 · 2364 阅读 · 0 评论 -
HBase(三)shell 表的操作 namespace 命名空间(详细使用)
通用命令--提供HBase的状态,例如,服务器的数量。status--提供正在使用HBase版本。version--表引用命令提供帮助。table_help--提供有关用户的信息。whoami1.创建表(1)语法create <table> , { NAME => <family> , VERSIONS => <VERSIONS> , ...}, { NAME => <family> ..原创 2020-05-21 19:41:58 · 4724 阅读 · 0 评论 -
Hive UDF 用户自定义函数
来源:https://www.cnblogs.com/screen/p/9116540.html用户自定义函数用户:根据条件在hive中查询,将统计的结果导入到mysql中,通用的函数根据我们的主键,取出时间戳信息和设备id1.查看函数的命令# 查看系统自带的函数show functions;# 显示自带的函数的用法desc function upper;# 详细显示自带的函数的用法desc function extended uppe...转载 2020-05-19 19:22:22 · 216 阅读 · 0 评论 -
HBase 协处理器 概念 加载方式
来源:https://www.cnblogs.com/qingyunzong/p/8697364.html1.协处理器HBase 0.92版本后推出了Coprocessor-协处理器,能够轻易建立二级索引、复杂过滤器以及访问控制等。系统协处理器可以全局导入region server上的所有数据表,表协处理器即是用户可以指定一张表使用协处理器。协处理器框架为了更好支持其行为的灵活性,提供了两个不同方面的插件。一个是观察者(observer),类似于关系型数据库的触发器。另一个终端(endpo.原创 2020-05-19 19:15:57 · 298 阅读 · 0 评论 -
Spark 2.4.5版本 集群安装(一)
1.准备默认安装jdk1.8export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.161-2.b14.el7.x86_64服务器分配,2台机器:192.168.14.44 node01 -- Master Worker192.168.14.46 node02 -- Worker2.Spark下载需要下载和Hadoop对应的版本,版本一定要选择好默认是使用scala2.11版本http://spa..原创 2020-05-19 09:37:22 · 726 阅读 · 0 评论 -
Hive(一) 简单介绍 功能 优缺点
1.Hive概述Hive是基于Hadoop的开源的数据仓库框架,提供了一种类SQL的语言HQL来处理数据,使熟悉SQL的用户能查询数据。其原理是将HiveQL转换为MapReduce任务,从而完成海量数据的查询和分析。HiveQL能通过实现用户自定义函数(UDF)、用户自定义聚合函数(UDAF)、用户自定义表函数(UDTF)进行扩展。基于Hadoop,Hive具有以下特点: 易于进行数据抽取、转换和加载(ETL) 支持多样的数据存储格式 能直接访问存储在HDFS上或者...原创 2020-05-16 10:25:29 · 2186 阅读 · 0 评论 -
Hive 分区表 动态分区开启 创建 hive.exec.dynamic.partition=true;
参考:https://blog.csdn.net/afafawfaf/article/details/802499741.分区表还可以创建二级分区:PARTITIONED BY (event_month string, step string)创建分区表:CREATE TABLE order_created_partition (order_number STRING, event_timeSTRING)PARTITIONED BY (event_month ...原创 2020-05-16 10:15:22 · 5856 阅读 · 0 评论 -
MapReduce 原理 shuffle过程 处理数据倾斜
参考:https://www.jianshu.com/p/93410ea20ec71.简介MapReduce是一个分布式编程的计算框架,是一个将分布式计算抽象为Map(映射)和Reduce(归约)两个阶段的编程模型2.MapReduce执行流程MapReduce的执行过程主要包含四个阶段:Split阶段、Map阶段、Shuffle阶段和Reduce阶段(1)split阶段 将输入的大文件进行split,每个输入分片(input split)针对一个map任务。 输...原创 2020-05-15 19:53:36 · 374 阅读 · 0 评论 -
HBase(一) 介绍 数据模型概念 rowkey
1.介绍是 Apache Hadoop 的数据库,是建 立在 HDFS 之上,被设计用来提供高可靠性、高性能、列存储、可伸缩、多版本的 NoSQL 的分布式数据存储系统,实现对大型数据的实时、随机的读写访问。特点: 它介于 NoSQL 和 RDBMS 之间,仅能通过主键(rowkey)和主键的 range 来检索数据 HBase 查询数据功能很简单,不支持 join 等复杂操作 不支持复杂的事务,只支持行级事务(可通过 hive 支持来实现多表 join 等复杂操作)。.原创 2020-05-13 11:19:26 · 1017 阅读 · 0 评论 -
Kafka 验证部署(单机版)kafka-producer-perf-test.sh 吞吐量测试工具的基本使用
1.测试topic创建与删除(1)创建一个测试topic,名为test-topic。创建3个分区,每个分区分配1个副本(因为是单机kafka,如果是集群的话可以分配多个副本),如果分配的副本数大于broker的数量时,会报错bin/kafka-topics.sh --zookeeper localhost:2181 --create --topic test-topic --partitions 3 --replication-factor 1(2)查看topic是否创建成功.原创 2020-05-12 20:15:53 · 6512 阅读 · 0 评论