
大数据
javastart
专注于大数据 AI
展开
-
Hive 基于Tez引擎 map和reduce数的参数控制原理与调优经验
Hive 基于Tez引擎 map和reduce数的参数控制原理与调优经验_是个好男人呀的博客-CSDN博客_hive tez优化转载 2022-05-16 18:28:14 · 7 阅读 · 0 评论 -
spark剖析:spark读取parquet文件会有多少个task
spark剖析:spark读取parquet文件会有多少个task_scx_white的博客-CSDN博客转载 2022-05-14 18:08:06 · 11 阅读 · 0 评论 -
Dr.elephant系统的配置与分析
这个已经几年没有更新,但是可以参考。没有找到更好的监控工具简介Dr.Elephant是Hadoop和Spark性能监控和调优工具。它会自动收集所有的指标,针对指标执行分析任务,并用简易的方式将其展示出来。它的目标是提高开发人员的工作效率,简化任务调优工作以更好的提高集群性能。它使用一组可插拔、可配置、基于规则的启发式(heuristics)来分析Hadoop和Spark任务并给出关于任务性能的详细报告信息,然后,基于该结果给出如何让任务执行得更为有效建议。1.Dr.elepha.原创 2022-05-13 10:50:42 · 277 阅读 · 0 评论 -
如何在Hive中生成Parquet表
本文件时2018,虽然有点老,但是没有找到更好的资料介绍parquet 格式map 数如何在Hive中生成Parquet表 - 云+社区 - 腾讯云转载 2022-05-11 18:57:07 · 29 阅读 · 0 评论 -
HDFS文件压缩工具,支持各种压缩格式
工具文档https://github.com/mullerhai/HsunTzu/blob/master/README.md核心方法调用将textfile文件类型 压缩成 gz文件类型hadoop jar /data/soft/HsunTzu/HsunTzuPro-beat-2.0.jar "${COMPRESS_HDFS_PATH}" "/" "1" "/data/soft/HsunTzu/info.properties" "2" "0"使用效果压缩前压缩中..转载 2022-05-08 21:43:08 · 11 阅读 · 0 评论 -
Hive插入parquet格式进行压缩
由于几张大表需要备份下线,由于有3T,单机磁盘空间问题,需要先压缩,下载本地,看了不少都比较复杂,了解有这个方面,测试还可以。创建parquet table :create table tabname(a int,b int) STORED AS PARQUET;创建带压缩的parquet table:create table tabname(a int,b int) STORED AS PARQUET TBLPROPERTIES('parquet.compression'='SNAPPY');原创 2022-05-08 21:06:22 · 218 阅读 · 0 评论 -
hdfs文件压缩
1 gzip压缩优点:压缩率比较高,而且压缩/解压速度也比较快;hadoop本身支持,在应用中处理gzip格式的文件就和直接处理文本一样;有hadoop native库;大部分linux系统都自带gzip命令,使用方便。缺点:不支持split。应用场景:当每个文件压缩之后在130M以内的(1个块大小内),都可以考虑用gzip压缩格式。譬如说一天或者一个小时的日志压缩成一个gzip 文件,运行mapreduce程序的时候通过多个gzip文件达到并发。hive程序,streaming程序,和ja..原创 2022-05-07 18:39:26 · 21 阅读 · 0 评论 -
Hadoop 压缩文件命令
Hadoop 压缩文件命令hadoop jar /usr/bin/hadoop/software/hadoop/share/hadoop/tools/lib/hadoop-streaming-2.7.2.4.jar \ -Dmapred.reduce.tasks=5 \ -Dmapred.output.compress=true \ -Dmapred.compress.map.output=true \ -Dmapred.outpu..原创 2022-05-07 17:42:44 · 466 阅读 · 0 评论 -
0631-6.2-如何确认一个Parquet文件是否被压缩
1 环境准备测试环境:1.CDH6.22.集群已开启Kerberos3.Redhat7.41.准备一张文本表,数据文件约6GB。create table if not exists hive_table_test (s1 string,s2 string,s3 string,s4 string,s5 string,s6 string,s7 string,s8 string,s9 string,s10 string,s11 string)ROW FORMAT ...转载 2022-05-07 13:28:26 · 9 阅读 · 0 评论 -
Parquet文件格式解析
介绍Parquet是目前比较流行的大数据文件列存储格式,主流的大数据计算框架都对其有良好的支持,包括spark,hive,impala等。相对于传统的行存储模式,列存储主要有以下优点:可以跳过不符合条件的数据,只读取需要的数据,降低IO数据量。压缩编码可以降低磁盘存储空间。由于同一列的数据类型是一样的,可以使用更高效的压缩编码(例如Run Length Encoding和Delta Encoding)进一步节约存储空间。只读取需要的列,支持向量运算,能够获取更好的扫描性能。相对于其它的列式.原创 2022-05-01 16:24:50 · 181 阅读 · 0 评论 -
hdfs 多个文件合并_处理 HDFS 上的过多小文件的问题?
最近检查发现生产环境 HDFS 上文件和目录数量已经有 70w+ 个,对 namenode 的压力也越来越大,需要对 HDFS 上的小文件进行合并处理,但并非所有文件都可以合并,一般是针对 Hive 表映射在 HDFS 的文件进行合并来减少文件数量,下面整理出来的 3 个处理方法:方法一使用官方工具 parquet-tools 合并指定的 parquet 文件使用 parquet-tools 对多个 parquet 文件进行合并,使用方法:# 合并 HDFS 上的 parquet 文件.原创 2022-04-25 18:50:25 · 1541 阅读 · 1 评论 -
[知识讲解篇113-hdfs 小文件如何处理]
一、什么是小文件小文件是指文件大小明显小于 HDFS 上块(block)大小(默认64MB,在Hadoop2.x中默认为128MB)的文件。如果一个文件的大小不是块大小的 75%,那么它就是一个小文件。然而,小文件问题并不仅仅影响小文件。如果 Hadoop 集群中的大量文件稍微大于块大小的增量,那么也将遇到与小文件相同的挑战。例如,如果块大小为128MB,但加载到 Hadoop 的所有文件都是 136MB,那么将拥有大量小的 8MB 块,好消息是解决此处的小块问题可以设置较大的块大小。..转载 2022-04-24 19:13:56 · 61 阅读 · 0 评论 -
CDH 生产环境: NameNode is not formatted问题处理
背景因升级JN节点,需要将JN迁移到其他机器,该节点有三台在迁移过程中我迁移其中一台。在HDFS页面进行角色迁移,选择当前角色机器和目标机器,提示需要重启整个集群(前提是需要确保是否有人员在使用)。重启后出现错误导致HA中Master无法启动错误信息引导备用 NameNodeFailed to bootstrap Standby NameNode NameNode (cluster-master): STARTUP_MSG: build = http://github.com/clou..原创 2022-03-25 18:12:54 · 119 阅读 · 0 评论 -
如何通过CM迁移Zookeeper服务
如何通过CM迁移Zookeeper服务 - 云+社区 - 腾讯云转载 2022-01-26 15:14:01 · 31 阅读 · 0 评论 -
分布式数据库(DorisDB、Clickhouse、TiDB)调研
1. 性能功能特点B站视频:DorisDB VS ClickHouse OLAP PK1.1 DorisDB场量:线上数据应用访问官方网站DorisDB企业版文档DorisDB是鼎石科技由Apache Doris核心研发团队打造的新一代企业级MPP数据库。它继承了Apache Doris项目十多年研发成果,累积了线上数千台服务器稳定运行经验,并在此基础上,对传统MPP数据库进行了开创性的革新。DorisDB重新定义了MPP分布式架构,集群可扩展至数百节点,支持PB级数据规模,是当前..转载 2022-01-19 19:15:09 · 461 阅读 · 0 评论 -
Clickhouse 实践之路
陌上闻笛关注82021.01.23 18:09:29字数 5,791阅读 5,381背景在数据量日益增长的当下,传统数据库的查询性能已满足不了我们的业务需求。而Clickhouse在OLAP领域的快速崛起引起了我们的注意,于是我们引入Clickhouse并不断优化系统性能,提供高可用集群环境。本文主要讲述如何通过Clickhouse结合大数据生态来定制一套完善的数据分析方案、如何打造完备的运维管理平台以降低维护成本,并结合具体案例说明Clickhouse的实践过程。Clickhou...转载 2021-06-22 18:58:23 · 261 阅读 · 0 评论 -
交通数据挖掘技术
https://www.icourse163.org/course/SEU-1458021173原创 2021-04-11 23:21:28 · 326 阅读 · 0 评论 -
大数据平台权限设计分享-Hive库表权限
大数据平台权限设计分享-Hive库表权限权限目标可通过界面管理用户访问hive库表权限,权限设计模型如下图权限模型-思维导图.png 用户拥有hive库表权限列表 image.png 新增hive库权限 image.png -新增hive表权限 image.png -修改hive库表权限 -删除hive库表权限实现思路在hive中执行sql之前,对sql语句进行解析,获取当前操作的类型,如se...转载 2021-03-16 12:10:00 · 138 阅读 · 0 评论 -
mysql开启binlog影响性能_技术分享 | MySQL binlog 压缩功能对性能的影响
本文链接:https://blog.csdn.net/weixin_39629075/article/details/113557347概要之前有做过一个 binlog 压缩能节约多少空间的测试,效果上看还是比较理想的,可以节约一半以上的空间。但是这个又引出了一个新的问题,那就是这个功能对性能有多大影响呢?于是我又在测试环境试了一下,测试环境的物理配置如下。根据之前的经验这套测试环境在 120 个表 + 240 个并发的情况,可以取得一个性能上的极大值;所以在这里就直接使用这个作为测试压力...转载 2021-03-06 10:01:15 · 120 阅读 · 0 评论 -
MySQL案例:binlog_row_image如何取舍
前言在MySQL数据库中,binlog是非常关键的日志文件,相关参数也是非常多;其中,binlog_row_image是一个很重要但又容易被忽略的参数。binlog_row_image参数,决定了binlog是如何记录前镜像和后镜像的,这也就会直接影响到数据闪回、主从复制等。概念首先,我们先介绍一下前镜像和后镜像:(1)前镜像(before image):记录修改前的内容(2)后镜像(after image):记录修改后的内容binlog_row_image参数,只在ro...转载 2021-03-05 18:23:47 · 111 阅读 · 1 评论 -
大数据时代的争议:Spark 能替代 Hive 吗?
https://cloud.tencent.com/developer/article/1357435本文作者:曾就职传统通讯运营商,负责BI项目的开发;目前转型互联网公司,就职于某厂负责相关的大数据仓库建设工作。 随着的几年的架构沉淀,工作上形成了离线以 Hive 为主,Spark 为辅, 实时处理用 Flink 的大数据架构体系及 Impala, Es,Kylin 等应用查询引擎。随着业务的发展,日常工作中会面试各种各样的人,接触下来发现一个比较奇怪的现象:学习 Spark 的面试者普遍转载 2021-02-21 11:28:10 · 443 阅读 · 0 评论 -
jmeter性能测试快速入门
Python自动化测试,JMeter性能测试,软件测试9 人赞同了该文章在用工具之前,首先我们来简单了解一下什么是性能测试?性能测试是系统在一定的负载和压力的情况下,系统的响应时间,吞吐量,稳定性,课扩展性等性能指标。也就是我们要验证系统是否在这些指标范围,或者说验证这些指标是否符合用户或客户的需求。性能指标包含系统指标和资源指标,今天我们就以用户角度去看一下如何验证系统指标?(系统指标:与用户场景和需求相关的指标,关键的一些指标包含:响应时间,吞吐量,并发用户数等)以下是按照中文版的...转载 2021-02-20 09:48:44 · 72 阅读 · 0 评论 -
sqoop导入数据遇到的参数问题 ,导出–staging-table
sqoop import参数–query "select XXXXX and $CONDITIONS " 按条件导入-m1 指定map在导入的时候采用指定–columns的方式来进行导入sqoop import --hive-import --hive-database test --create-hive-table --connect jdbc --username user–password user–bindir //scratch --outdir /Java --table ...转载 2021-02-09 16:46:30 · 658 阅读 · 0 评论 -
mysql 5.7 binlog 压缩_MySQL binlog 压缩功能的相关介绍-爱可生
为了解决大数据下 binlog 占用空间大问题,在研究这问题。之前有做过一个 binlog 压缩能节约多少空间的测试,效果上看还是比较理想的,可以节约一半以上的空间。但是这个又引出了一个新的问题,那就是这个功能对性能有多大影响呢?于是我又在测试环境试了一下,测试环境的物理配置如下。根据之前的经验这套测试环境在 120 个表 + 240 个并发的情况,可以取得一个性能上的极大值;所以在这里就直接使用这个作为测试压力。8.0.19 场景第一步:安装。dbma-cli-singl...转载 2021-02-08 14:17:26 · 100 阅读 · 0 评论 -
MySQL之binlog_row_image参数
根据文档描述,在基于RBR的复制中,每一个数据行更改事件会包含两份影像(image)。一份是“before”影像,是指被更改的数据行的那些列的原始记录,一份是“after”影像,是指被更改后的列(值)。默认配置下,mysql会在“before”和“after”影像中记录更改数据行的所有列。但是很明显,这不是必须的。其实我们可以通过配置binlog_row_image参数来节省磁盘,内存以及网络资源。因为其实仅仅只需要记录我们更改的那些列(值)。当删除一条数据行时,仅仅只有“before”影...转载 2021-02-07 17:16:07 · 161 阅读 · 0 评论 -
Mysql Binlog三种格式详细介绍
一.MySQLBinlog格式介绍mysqlbinlog日志有三种格式,分别为Statement,MiXED,以及ROW!查看binlog的格式的脚本:二、binlog 的不同模式有什么区别呢?1.Statement:每一条会修改数据的sql都会记录在binlog中。优点:不需要记录每一行的变化,减少了binlog日志量,节约了IO,提高性能。(相比row能节约多少性能与日志量,这个取决于应用的SQL情况,正常同一条记录修改或者插入row格式所产生的日志量...原创 2021-02-07 09:56:49 · 116 阅读 · 0 评论 -
sqoop批量插入数据
问题虽然Sqoop的导出功能符合需要, 但速度太慢。每一行都插入到单独的insert语句中,是否有方法将多个insert语句一起批处理?解决方案Sqoop 为各种数据库和用例量身定做, 为每次插入多行提供多个选项。首先, 可以使用--batch参数启用 JDBC 批处理:sqoop export \--connect jdbc:mysql://mysql.example.com/sqoop \--username sqoop \--password sqoop \--tab...原创 2021-02-05 15:15:49 · 338 阅读 · 0 评论 -
数据库大批量SQL插入性能优化
对于一些数据量较大的系统,数据库面临的问题除了查询效率低下,还有就是数据入库时间长。特别像报表系统,每天花费在数据导入上的时间可能会长达几个小时或十几个小时之久。因此,优化数据库插入性能是很有意义的。经过对MySQL InnoDB的一些性能测试,发现一些可以提高insert效率的方法,供大家参考参考。1、一条SQL语句插入多条数据常用的插入语句如:INSERT INTO `insert_table` (`datetime`, `uid`, `content`, `...转载 2021-02-05 14:51:17 · 91 阅读 · 0 评论 -
Apache DolphinScheduler 1.3.3 发布,新一代大数据任务调度系统
内容简介:新一代大数据任务调度 - Apache DolphinScheduler(incubator) 在经过社区 20 多位小伙伴的贡献与努力下于发布了 1.3.3 版本,1.3.3 作为 1.3.x 的 bug 修复版本,本次共修复了 1.3.2 发现的 30 多个bug,其中多数...本文转载自:https://www.oschina.net/news/120960/apache-dolphinscheduler-1-3-3-released,本站转载出于传递更多信息之目的,版权归原作者...原创 2021-02-02 19:15:57 · 228 阅读 · 1 评论 -
主流大数据调度工具对比DolphinScheduler Azkaban Airflow Oozie Xxl-job
大数据环境下,调度工具比不可少,离线批任务和准实时任务都需要调度去驱动。下文介绍主流大数据调度工具对比DolphinScheduler Azkaban Airflow Oozie Xxl-job Xxl-job DolphinScheduler Azkaban Airflow Oozie 定位 一个轻量级分布式的任务调度框架 解决数据处理流程中错综复杂的依赖关系 为了解决Hadoop的任务依赖关系问题 通用的批量数据处理 管理...转载 2021-02-02 19:04:32 · 2034 阅读 · 0 评论 -
如何在数据流中轻松检测异常值-离群值
一种简单的方法,可通过Python实现在数据流中查找异常值在上一篇文章中,我解释了流算法的概念,并给出了许多如何应用流算法的示例。 其中之一是在不保存数据流元素的情况下计算数据流的滚动平均值。 现在,我想扩展这个示例,并在异常值检测的背景下向您展示另一种流算法的用例。当我们监视机器的功耗以检测任何异常行为时,可能会出现类似的问题。 如果我们发现异常值有所增加(异常观察),则可能表明这台机器的默认值,可能值得检查。定义和示例离群值可以通过多种方式定义。 在本文中,我们将使用以下定义:...转载 2020-05-26 12:23:19 · 1448 阅读 · 0 评论 -
GC调优在Spark应用中的实践
GC调优在Spark应用中的实践(转载)Spark是时下非常热门的大数据计算框架,以其卓越的性能优势、独特的架构、易用的用户接口和丰富的分析计算库,正在工业界获得越来越广泛的应用。与Hadoop、HBase生态圈的众多项目一样,Spark的运行离不开JVM的支持。由于Spark立足于内存计算,常常需要在内存中存放大量数据,因此也更依赖JVM的垃圾回收机制(GC)。并且同时,它也支持兼容批处理和流式处理,对于程序吞吐量和延迟都有较高要求,因此GC参数的调优在Spark应用实践中显得尤为重要。本文主要讲述如转载 2020-05-23 15:35:09 · 148 阅读 · 0 评论 -
大数据技术丛书·Flink原理、实战与性能优化-在线读书
http://yuedu.163.com/book_reader/a6a7fdfedb6246148e4eb19b617557d2_4转载 2020-05-01 11:06:48 · 1279 阅读 · 0 评论 -
使用Python「秒开」100GB+数据
本文转载自公众号量化投资与机器学习如果你50GB甚至500GB的数据集,打开他们都很困难了,更别说分析了。在处理这样的数据集时,我们通常采用3种方法。第一种对数据进抽样:这里的缺点是显而易见的,样本数据能否代表整个数据。第二种使用分布式计算:虽然在某些情况下这是一种有效的方法,但是它带来了管理和维护集群的巨大开销。想象一下,必须为一个刚好超出RAM范围的数据集设置一个集群,比...原创 2020-03-13 13:38:47 · 149 阅读 · 0 评论 -
hdfs 中 CentOS,清理缓存(drop_caches)规划
读写文件时,Linux内核为了提高读写效率与速度,会将文件在内存中进行缓存,这就是Cache Memory(缓存内存)。即使程序运行结束后,Cache Memory也不会自动释放。这就会导致程序频繁读写文件后,可用物理内存会很少。其实这缓存内存(Cache Memory)在你需要使用内存的时候会自动释放,所以不必担心没有内存可用。如果你希望手动去释放Cache Memor...原创 2020-03-12 11:18:03 · 771 阅读 · 0 评论 -
java中堆外内存详解
堆外内存和堆内内存堆外内存又称为直接内存(Direct Memory)并不是虚拟机运行时数据区的一部分,也不是Java虚拟机规范中定义的内存区域.一直以来是Javaer们难以关注的一片领域,今天我们就一起探索一下这片区域究竟隐藏着什么东东????JVM可以使用的内存分外2种:堆内存和堆外内存.我们先看一下我们已经相对来说十分熟悉的堆内内存:Java堆(JAva He...转载 2020-03-11 16:03:13 · 676 阅读 · 0 评论 -
记Structured Streaming 2.3.1的OOM排查过程
记Structured Streaming 2.3.1的OOM排查过程缘起最近在使用Structured Streaming开发一套自助配置SQL的来生成流式作业的平台,在测试的过程中发现有些作业长时间运行后会有Executor端的OOM,起初以为是代码的问题,几经review和重构代码,都没有解决,无奈开始了这次OOM的问题排查之路。干货出现的问题Structured Str...转载 2020-01-14 14:25:47 · 179 阅读 · 1 评论 -
Hadoop2.2.0版本多节点集群安装及测试
摘要:本文记录了Hadoop2.2.0版本多节点集群安装过程,并做了基本配置,启动运行和测试了一个单词统计例子。转http://www.kankanews.com/ICkengine/archives/68086.shtml环境说明:基于Windows下的VMware Player4.0.3中的Ubuntu12.04-64server安装,先把基础软件安装到一个虚拟机中,然后拷贝两份再转载 2013-11-19 22:53:22 · 1104 阅读 · 0 评论 -
安装Hadoop2.2 时出现错误日志
[hduser@hadoop3 hadoop-2.2.0]$ ./bin/hdfs namenode –format14/03/01 22:17:23 INFO namenode.NameNode: STARTUP_MSG: /************************************************************STARTUP_MSG: Startin原创 2014-03-02 15:20:17 · 1181 阅读 · 0 评论 -
Hadoop使用常见问题以及解决方法 (转)
Hadoop使用常见问题以及解决方法 .作者:keda8997110 和linux相关 http://biancheng.dnbcw.info/linux/441854.html1:Shuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-outAnswer:程序里面需要打开多个文件,进行分析,系统一般默认数转载 2014-03-02 18:00:26 · 8163 阅读 · 2 评论