![](https://img-blog.csdnimg.cn/20200918184933430.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
hadoop
文章平均质量分 71
纵向大数据之旅
优惠券已抵扣
余额抵扣
还需支付
¥49.90
¥99.00
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
贾斯汀玛尔斯
点赞、收藏加关注,追fun不迷路
展开
-
Hadoop升级失败,File system image contains an old layout version -64
datasophon 部署Hadoop版本。原始版本 Hadoop 3.1.3。升级版本 Hadoop 3.3.3。查看Hadoop格式化版本。原创 2024-06-19 15:17:45 · 195 阅读 · 0 评论 -
Milvus向量数据库
Milvus 是一个专注于向量数据存储和高效查询的开源数据库系统。它的设计目标是支持大规模向量数据的存储、索引和查询,特别适用于以向量为核心的应用场景,如相似度搜索、推荐系统等。原创 2024-06-14 10:38:54 · 211 阅读 · 0 评论 -
spark机器学习之协同过滤
协同过滤是一类基于用户行为数据的推荐算法,它的核心思想是利用用户的历史行为数据(比如评分、购买、点击等)来发现用户之间的相似性或者物品之间的相似性,从而给用户推荐他们可能感兴趣的物品。协同过滤算法通常分为两种类型:基于用户的协同过滤和基于物品的协同过滤。协同过滤算法的优点是不需要关于用户或物品的额外信息,只需要用户的历史行为数据即可。但是,协同过滤算法也存在一些问题,比如冷启动问题(对于新用户或新物品无法进行有效的推荐)、稀疏性问题(用户对物品的行为数据往往是稀疏的)等。:选择适当的模型来进行协同过滤。原创 2024-05-28 10:02:39 · 41 阅读 · 0 评论 -
doris be报错:sysctl -w vm.max_map_count=2000000
doris be 报错原创 2024-05-06 16:50:14 · 127 阅读 · 0 评论 -
SeaTunnel 与 DataX 、Sqoop、Flume、Flink CDC 对比
Apache SeaTunnel 是一个非常易用的超高性能分布式数据集成产品,支持海量数据的离线及实时同步。每天可稳定高效同步万亿级数据,已应用于数百家企业生产,也是首个由国人主导贡献到 Apache 基金会的数据集成顶级项目。SeaTunnel 主要解决数据集成领域的常见问题:数据源多样:常用的数据源有数百种,版本不兼容。随着新技术的出现,出现了更多的数据源。用户很难找到能够全面快速支持这些数据源的工具。复杂同步场景。原创 2024-04-16 17:19:40 · 442 阅读 · 1 评论 -
kylin的使用心得
Kylin拥有一个活跃的开发者社区和用户社区,用户可以在社区中获取技术支持、提出问题、分享经验,并参与到Kylin项目的开发和改进中。:Kylin通过预计算多维度的聚合数据,并将其存储在多维度的立方体中,从而实现了快速的多维分析查询能力。:Kylin提供了简单易用的部署和管理工具,用户可以快速搭建和配置Kylin集群,并进行监控和调优。Kylin是一个功能强大、易于使用、性能优越的大数据OLAP引擎,它为用户提供了快速的多维分析查询能力,帮助用户更好地理解和探索数据,从而为业务决策提供支持。原创 2024-04-15 09:59:39 · 107 阅读 · 0 评论 -
Apache Storm的详细配置
配置原创 2024-04-12 09:28:42 · 337 阅读 · 0 评论 -
开源数据湖iceberg, hudi ,delta lake, paimon对比分析
Iceberg, Hudi, Delta Lake和Paimon都是用于大数据湖(Data Lake)或数据仓库(Data Warehouse)中数据管理和处理的工具或框架,但它们在设计、功能和适用场景上有所不同。原创 2024-04-07 10:51:49 · 756 阅读 · 2 评论 -
湖仓管理系统 Amoro部署
Apache Amoro(incubating) 是一个构建在 Apache Iceberg 等开放数据湖表格之上的湖仓管理系统,提供了一套可插拔的数据自优化机制和管理服务,旨在为用户带来开箱即用的湖仓使用体验。Amoro 的愿景是依托于 Apache Iceberg、Apache Paimon 等新型数据湖表格式的基础功能,持续打磨湖仓管理系统的定位和开箱即用的功能,为大数据产品和用户带来:降低湖仓应用门槛,融入现代数据栈,为围绕湖仓构建的大数据产品极瘦身,让湖仓不再成为互联网企业的专宠。原创 2024-04-02 14:08:04 · 179 阅读 · 0 评论 -
Hive正则表达式使用
hive正则表达式介绍及使用原创 2024-03-19 17:35:12 · 407 阅读 · 0 评论 -
. ./ bash dash source 这五种执行shell脚本方式 区别
尽管在Ubuntu中Dash作为默认的/bin/sh解释器,但用户仍然可以安装其他shell,如Bash,然后手动将其设置为默认shell。这意味着脚本中定义的变量、函数或别名将仅在该新的 Bash shell 中生效,而不会影响当前的 shell 环境。命令来执行脚本时,脚本中的命令将在当前 shell 中执行,而不会启动新的 shell 进程。它们用于在当前 shell 环境中执行脚本。这种方式也不会启动新的 shell 进程,脚本中定义的变量、函数或别名将在当前 shell 中生效。原创 2024-03-19 17:01:08 · 201 阅读 · 0 评论 -
开源元数据管理平台Amundsen安装
Amundsen是一个用于提高数据分析师、数据科学家和工程师在与数据交互时的生产力的数据发现和元数据引擎。目前,它通过索引数据资源(表、仪表板、流等)并基于使用模式(例如,高频查询的表会比低频查询的表更早显示)提供类似于PageRank的搜索来实现这一目标。可以将其视为数据的Google搜索。该项目以挪威探险家Roald Amundsen命名,他是第一个发现南极点的人。原创 2024-01-24 10:14:22 · 437 阅读 · 0 评论 -
大数据之数据血缘采集方案(附代码示例)
数据血缘采集是指通过记录和跟踪数据在整个信息系统中的流动过程,以建立数据元素之间的关系和依赖关系。这有助于了解数据的来源、传输路径、转换过程以及最终的使用情况。数据血缘采集在数据管理和治理中起着重要的作用,可以帮助组织更好地理解和管理其数据资产。原创 2024-01-23 09:51:26 · 732 阅读 · 0 评论 -
apache seatunnel支持hive jdbc
seatunnel 创建hive jdbc任务原创 2023-10-30 15:48:05 · 649 阅读 · 0 评论 -
元数据的前世今生
元数据服务(Metadata Service)是一种用于管理和查询元数据的服务,通常在数据管理、数据集成、数据治理和数据分析领域中被广泛使用。元数据服务负责收集、存储、查询、维护和共享组织内部的元数据信息,包括数据定义、数据结构、数据源、数据流程、数据规则、数据质量等。原创 2023-10-16 15:23:49 · 624 阅读 · 0 评论 -
数仓建设规范说明书
本⽂档是数据仓库规范设计说明书,旨在规范化、统⼀化数据仓库整体建设。通过数仓架构设计、数仓模型设计、数仓开发规范、数据质量规范这四个⽅⾯对整体数仓建设做好规范化的指导。⾯向数据开发团队、数据产品团队、前后端团队等与数仓数据有关⼈员。遵循“业务数据化、数据资产化、资产规范化,让数据更好的⽤起来”的核⼼理念,通过整体规范的制定和统⼀实施,提⾼整体数据的完备性与质量,降低数据使⽤⻔槛,提升团队之间协作效率,打造真正意义上的数据资产。原创 2023-10-13 16:47:36 · 133 阅读 · 0 评论 -
ubuntu安装datasophon问题记录
ubunto 安装datasophon时遇到的错误原创 2023-10-10 18:01:19 · 339 阅读 · 0 评论 -
hive分区表的元数据信息numRows显示为0
hive分区表的元数据信息numRows显示为0原因一:分区表无数据原因二:存在数据,需要修复统计信息原创 2023-09-21 11:46:03 · 623 阅读 · 0 评论 -
时序数据库
时序数据库(Time Series Database,TSDB)是一种专门用于存储、检索和处理时间序列数据的数据库系统。时间序列数据是按照时间顺序记录的数据点集合,通常用于跟踪和分析随时间变化的数据,例如传感器数据、监控数据、日志数据、金融数据等。原创 2023-09-08 16:30:32 · 758 阅读 · 0 评论 -
hive 分隔符
在 Hive 中,分隔符是用于将文本文件中的数据字段分隔开的字符或字符串。Hive 支持多种分隔符,并且你可以在创建表时指定分隔符,以确保 Hive 正确地解析和处理你的数据文件。原创 2023-09-05 10:53:35 · 733 阅读 · 0 评论 -
Hive的静态分区与动态分区
静态分区和动态分区的主要区别在于分区键值的管理方式。静态分区需要在创建表时明确定义分区键值,并手动创建分区目录,适用于已知分区值的场景。动态分区则根据数据内容自动生成分区键值和分区目录,适用于需要动态划分数据的场景。选择使用哪种分区方式取决于你的数据管理和查询需求。原创 2023-09-04 17:52:04 · 419 阅读 · 0 评论 -
Hive UDF、UDAF和UDTF函数详解
在 Hive 中,可以编写和使用不同类型的自定义函数,包括 UDF(User-Defined Functions)、UDAF(User-Defined Aggregate Functions)和 UDTF(User-Defined Table Functions)。原创 2023-09-04 17:06:18 · 630 阅读 · 0 评论 -
Hive窗口函数大全
Hive 支持窗口函数(Window Functions),窗口函数是一类在 SQL 查询中进行分析计算的函数,它们能够在一个窗口(也称为窗体或分区)内对数据进行聚合、排序、排名等操作。窗口函数通常与 `OVER` 子句一起使用,以定义窗口的范围和排序方式。原创 2023-09-01 15:43:03 · 581 阅读 · 0 评论 -
kafka架构和原理详解
Kafka 是一个由 Apache 软件基金会开发的分布式流数据平台,用于构建高吞吐量、低延迟的实时数据流处理系统。它最初由 LinkedIn 开发,并在成为开源项目后交给 Apache 维护。Kafka 的设计目标是能够处理大规模的实时数据流,以支持应用程序的实时数据处理、日志收集、事件流处理等需求。原创 2023-08-30 16:03:37 · 2046 阅读 · 0 评论 -
Apache Shiro是什么
Apache Shiro是一个强大且易用的Java安全框架,用于身份验证、授权、会话管理和加密。它的设计目标是简化应用程序的安全性实现,使开发人员能够更轻松地处理各种安全性问题,从而提高应用程序的安全性和可维护性。原创 2023-08-25 10:23:14 · 833 阅读 · 0 评论 -
Flume、Logstash、Filebeat对比
Flume、Logstash、Filebeat对比原创 2023-08-23 15:10:40 · 860 阅读 · 0 评论 -
Apache Flume架构和原理
Apache Flume是一个用于收集、聚合和传输大规模数据的分布式系统。它具有许多特性,使其适用于各种数据流处理场景。原创 2023-08-23 10:29:25 · 961 阅读 · 0 评论 -
Apache Zookeeper架构和选举机制
ZooKeeper: - 用途:ZooKeeper是一个分布式协调服务,主要用于解决分布式系统中的一致性、配置管理、领导者选举等问题。 - 数据模型:ZooKeeper使用层次化的命名空间(znode)来存储数据和元数据。 - 特点:强调数据一致性、原子性操作、顺序性等特性,适用于分布式锁、配置管理等场景。 - 使用场景:适用于构建高可用、可靠和具有一致性要求的分布式系统。原创 2023-08-22 16:49:04 · 952 阅读 · 0 评论 -
Hadoop支持LZO压缩
LZO(Lempel-Ziv-Oberhumer)是一种高效的压缩算法,适用于Hadoop中的数据压缩。Hadoop支持使用LZO算法对数据进行压缩,以减少存储空间占用和数据传输开销。原创 2023-08-22 14:28:23 · 1100 阅读 · 0 评论 -
Hadoop YARN的调度器
在选择调度器时,需要根据集群的特性、工作负载和性能需求来做出选择。容量调度器适合需要对不同队列进行资源划分和管理的场景,而公平调度器适合需要在多个作业之间公平共享资源的场景。原创 2023-08-18 17:59:57 · 572 阅读 · 0 评论 -
Hadoop 切片机制
通过这种切片机制,Hadoop能够实现高效的并行处理,将大规模的数据分割为适当大小的切片,然后由多个Map任务并行处理,最终通过Reduce阶段汇总计算结果。原创 2023-08-18 10:48:52 · 230 阅读 · 0 评论 -
HDFS文件格式及压缩
选择文件格式和压缩方式时,需要根据数据类型、存储需求和处理性能之间的权衡来进行决策。例如,Parquet和ORC适用于大规模结构化数据,而SequenceFile适用于键-值对,Avro适用于半结构化数据。压缩方式的选择取决于读写性能和存储空间的权衡。原创 2023-08-18 10:28:02 · 646 阅读 · 0 评论 -
Redis基础及面试技巧
1. RDB和AOFRDB:Redis DataBase,在指定的时间间隔内将内存中的数据集快照写⼊磁盘,实际操作过程是fork⼀个⼦进程,先将数据集写⼊临时⽂件,写⼊成功后,再替换之前的⽂件,⽤⼆进制压缩存储。优点:. 整个Redis数据库将只包含⼀个⽂件 dump.rdb,⽅便持久化。. 容灾性好,⽅便备份。. 性能最⼤化,fork ⼦进程来完成写操作,让主进程继续处理命令,所以是 IO 最⼤化。使⽤单独⼦进程来进⾏持久化,主进程不会进⾏任何 IO 操作,保证了 redis 的⾼性能. 相对原创 2022-02-24 18:04:46 · 490 阅读 · 0 评论 -
Centos 7.5部署Rocketmq
Rocket的部署及使用原创 2022-01-27 11:52:43 · 806 阅读 · 0 评论 -
Redis集群详细解读
redis的面试宝典丰富的redis内容整理清晰的思路解析原创 2022-03-14 17:05:37 · 3522 阅读 · 0 评论 -
Tidb集群部署
集群拓扑规划角色节点数据路径部署路径pdbigdata1/tidb/tidb-data/pd-2379/tidb/tidb-deploy/pd-2379bigdata2/tidb/tidb-data/pd-2379/tidb/tidb-deploy/pd-2379bigdata3/tidb/tidb-data/pd-2379/tidb/tidb-deploy/pd-2379tidbbigdata1-/tidb/tidb-deploy/tid原创 2022-02-22 10:38:44 · 1373 阅读 · 0 评论 -
HBase部署及架构设计原理
1 HBase概述1.1 HBase简介由Google发表的关于BigTable的论文启发,使得HBase成为了基于HDFS开发的、面向列的、可伸缩的、开源的分布式数据库,并且它提供了随机实时读写功能。HBase作为Hadoop生态系统中的结构化存储工具,HDFS为它提供了高可靠性的底层存储支持,Hadoop MapReduce为它提供了高性能的海量数据处理能力(如可以实现上亿条记录的毫秒级别的查询),Zookeeper作为协调工具为它提供了稳定服务和失败恢复机制。HBase具有以下特点。它弥补了Ha原创 2020-09-30 17:42:14 · 193 阅读 · 0 评论 -
Redis6.2.6的单机和集群的部署测试
Redis单机安装与测试下载&编译wget https://download.redis.io/releases/redis-6.2.6.tar.gztar -zxvf redis-6.2.6.tar.gz编译make MALLOC=libc && make installmake test编译完成后会生成src目录安装rubyyum install ruby rubygems -y安装集群管理工具wget https://rubygems.o原创 2022-01-20 16:03:08 · 938 阅读 · 2 评论 -
HDFS的小文件影响及解决办法
处理小文件问题需要权衡各种方法,并根据具体情况选择适合的解决方案,以最大程度地减少对HDFS性能的负面影响。原创 2023-08-17 14:19:57 · 956 阅读 · 0 评论 -
国产开源ambari之DataSophon部署
datasophon部署致力于快速实现部署、管理、监控以及自动化运维大数据云原生平台,帮助您快速构建起稳定、高效、可弹性伸缩的大数据云原生平台。原创 2023-08-10 14:20:49 · 1512 阅读 · 0 评论