![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
tonglingtou1875
这个作者很懒,什么都没留下…
展开
-
Trino Presto 等 SQL 连接客户端工具
Trino SQL 连接工具原创 2022-06-29 17:53:50 · 1342 阅读 · 0 评论 -
Trino 387 JVM 配置详解
Trino 387 JVM 配置各参数详解原创 2022-06-29 11:23:48 · 878 阅读 · 0 评论 -
Trino 387 Docker 部署配置数据源后不显示对应数据Catalog
Trino 387 Docker 部署配置数据源后不显示对应数据Catalog,添加数据源失败原创 2022-06-28 17:53:40 · 643 阅读 · 0 评论 -
统计Hive所有数据库中所有数据表的记录数
通过Hive元数据,可快速统计Hive所有数据库中所有数据表的记录数。1、 首先找到 Hive 元数据所在的 Mysql 库;2、在 Hive 元数据所在的 Mysql 库执行下面的SQL语句即可。注:同理,调整查询语句可获取其他数据。SELECT d.NAME '数据库名',t.TBL_NAME '数据表名', COALESCE((SELECT tp.PARAM_VALUE FROM TABLE_PARAMS tp WHERE tp.TBL_ID=t原创 2022-04-09 09:34:10 · 6657 阅读 · 1 评论 -
Oozie 任务配置详解及详细操作教程
参考资料:CentOS7下oozie调度任务案例_四国棋客-CSDN博客原创 2021-09-18 12:05:50 · 403 阅读 · 0 评论 -
Oozie 工作流生命周期及合法的状态转移
工作流生命周期状态含义说明PREP一个工作流Job第一次创建将处于PREP状态,表示工作流Job已经定义,但是没有运行。RUNNING当一个已经被创建的工作流Job开始执行的时候,就处于RUNNING状态。它不会达到结束状态,只能因为出错而结束,或者被挂起。SUSPENDED一个RUNNING状态的工作流Job会变成SUSPENDED状态,而且它会一直处于该状态,除非这个工作流Job被重新开始执行或者被杀死。SUCCEEDED当一个RUNNING状态的工作流J原创 2021-09-17 14:45:28 · 168 阅读 · 0 评论 -
Oozie 任务启动后占用大量资源导致任务失败解决
如果集群资源不足,Oozie 任务启动后占用大量资源可能导致任务失败一般有两种情况。一是导致自身任务挂起无法执行成功;二是导致其他任务无法启动。解决办法在 workflow.xml 的配置 <configuration> 中增加如下属性 <property> :<property> <name>oozie.launcher.mapreduce.map.memory.mb</name> <value>512</value原创 2021-09-14 09:30:29 · 387 阅读 · 0 评论 -
Oozie Shell 任务 yarn 用户写入 HDFS permission denied 异常切换用户
问题场景Oozie 启动 SHELL 节点,其中上传 HDFS 时出现权限异常,异常信息如下:Permission denied: user=yarn, access=WRITE oozie shell action问题原因Hadoop分布式文件系统文件和目录的权限模型与POSIX系统权限模型相似。每一个文件和目录有一个所有者(owner)和一个组(group);文件或目录对其所有者、同组的其余用户以及全部其余用户分别有不一样的权限。对文件而言,当读取这个文件时须要有 r 权限,当写入或者追加原创 2021-09-14 09:21:14 · 700 阅读 · 0 评论 -
数据湖治理中心(DGC)与 ModelArts 的区别与联系
1 定义1.1 数据湖治理中心(DGC)是数据全生命周期一站式开发运营平台。(1)属于华为云大数据产品(2)功能:提供数据集成、数据开发、数据治理、数据服务、数据可视化等(3)应用场景:支持行业知识库智能化建设,支持大数据存储、大数据计算分析引擎等数据底座(4)目标:帮助企业客户快速构建数据运营能力1.2 ModelArts是面向开发者的一站式 AI 开发平台。(1)属于华为云人工智能产品(原MLS业务已迁移至ModelArts)(2)功能:为机器学习与深度学习提供海量数据预处理及原创 2021-08-31 17:47:35 · 1188 阅读 · 0 评论 -
边缘计算、云计算、云、边、端的定义及关系
边缘计算,是指在靠近物或数据源头的一侧,采用网络、计算、存储、应用核心能力为一体的开放平台,就近提供最近端服务,核心理念是将数据的存储、传输、计算和安全交给边缘节点来处理,其应用程序在边缘侧发起,可以产生更快的网络服务响应,满足各行业在实时业务、应用智能、安全与隐私保护等方面的需求按功能角色来看,边缘计算主要分为“云、边、端”三个部分:“云”是传统云计算的中心节点,是边缘计算的管控端;“边”是云计算的边缘侧,分为基础设施边缘和设备边缘;“端”是终端设备,如手机、智能家电、各类传感器、摄像头等随着云计算能原创 2021-08-30 17:53:53 · 16930 阅读 · 0 评论 -
Ozone 与 HDDS 的区别与联系
HDDS + Ozone manager = OzoneOzone是Hortonworks基于HDFS实现的一个对象存储服务。旨在基于HDFS的DataNode存储,支持更大规模的数据对象存储支持各种对象大小并且拥有HDFS的可靠性,一致性和可用性HDDS(Hadoop Distributed Data store)是指Ozone中的 SCM 和 DataNode 组成的一个通用的存储层。注:OzoneManager作为对象存储元数据服务;StorageContainerMana原创 2021-06-28 15:31:08 · 510 阅读 · 0 评论 -
Apache Ozone 分布式对象存储系统相关文档汇总
Ozone 是 Hadoop 的分布式对象存储系统,具有易扩展和冗余存储的特点。Ozone 能存储数十亿个不同大小的对象,支持在容器化环境(如 Kubernetes)中运行。Apache Spark、Hive 和 YARN 等应用无需任何修改即可使用 Ozone。Ozone 提供 Java API、S3 接口和命令行接口,方便 Ozone 在不同应用场景下的使用。Apache Ozone 分布式对象存储系统相关文档汇总如下:漫谈未来的HDFS - 云+社区 - 腾讯云:https://cloud.原创 2021-06-28 14:54:39 · 532 阅读 · 0 评论 -
对象存储产生背景、发展历史、原理架构、优缺点、应用场景及开源项目对比
1 对象存储的背景在较长时间中,DAS、SAN、NAS三种存储架构被广泛使用DAS和SAN是基于物理块的存储方式(块存储),NAS是基于文件的存储方式随着数据量爆炸增长,非结构化数据的占比显著增加,三种架构无法有效应对2 对象存储的历史1996年,美国卡内基梅隆大学就将对象存储作为一个研究项目提出来。随后加州大学伯克利分校也有推出类似的项目2002年,Filepool公司推出了基于内容可寻址技术的Centera系统,是比较早期的对象存储系统2006年,美国Amazon公司发布AWS S3原创 2021-06-26 16:34:17 · 1789 阅读 · 0 评论 -
Hive 常用统计查询语句
分组统计SELECT resourcetype, count(1) as cntFROM test.xxGROUP BY resourcetype原创 2021-06-23 12:01:25 · 425 阅读 · 0 评论 -
大数据 HBase 简介、原理、使用场景、闭坑要点全面总结
HBase是什么HBase是一个高可靠、高性能、面向列、可伸缩的分布式存储系统。HBase如何存储使用Hadoop HDFS作为其文件存储系统。存储结构:HMaster、HRegionSever、HRegion、HLog、Store、MemStore、StoreFile、HFile。Table在行的方向上分割为多个HRegion(分散在不同的RegionServer);每个HRegion由多个Store构成,每个Store由一个MemStore和0或多个StoreFile组成,每个原创 2020-12-31 09:39:47 · 343 阅读 · 0 评论 -
理解数据挖掘与大数据挖掘的区别与联系
一、数据挖掘是什么? 数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据源必须是真实的、大量的、含噪声的发现的是用户感兴趣的知识发现的知识要可接受、可理解、可运用并不要求发现放之四海皆准的知识,仅支持特定的发现问题二、大数据挖掘是什么? 数据挖掘是创建数据挖掘模型的一组试探法和计算方法,通过对提供的数据进行分析,查找特定类型的模式和趋势,最终形成创建模型。 大数据挖掘常用的算法有分类、原创 2020-12-28 15:29:28 · 1528 阅读 · 1 评论 -
大数据分析步骤及分析方法详解
一、数据分析活动步骤1 识别目标需求首先必须明确数据分析的目标需求,从而为数据的收集和分析提供清晰的方向,该步骤是数据分析有效性的首要条件。2 采集数据数据采集就是运用合适的方法来有效收集尽可能多的相关数据,从而为数据分析过程的顺利进行打下基础。常用的数据采集方法包括:系统日志采集方法,这是目前广泛使用的一种数据采集方法。3 数据预处理对数据进行必要的预处理,常用的数据预处理方法包括:数据集成、数据清洗、数据去冗余。4 数据挖掘数据挖掘的目的是在现有数据基础之上利用各类有效的算法挖掘出数据中原创 2020-12-28 15:11:57 · 6920 阅读 · 0 评论 -
实现 Java 读取高可用(HA)HDFS失败时自动切换主备节点配置
问题描述 由于异常、手动设置等因素,在读取高可用(HA)HDFS上的文件时,HDFS主备节点可能发生改变,导致从配置的节点读取文件失败。 若每次都手动调整节点地址,涉及到的代码较分散,容易遗漏;实现读取失败时主备节点自动切换,即可适应此场景,减少频繁修改HDFS工具类。解决方法1、配置多个hdfs地址,使用 try-catch 捕获异常,判断出可用的hdfs地址。注:不建议使用此种捕获异常切换的方法。2、 配置 HDFS 的 Configuration 对象实现自动切换主备节点。将所原创 2020-12-28 10:59:25 · 1278 阅读 · 5 评论