BigData
文章平均质量分 90
未来在这儿
熟悉k8s、docker;熟悉Spark Streaming,Storm,Flink,Hadoop,Hive,Redis,Kafka,RocketMQ,ES;熟悉Socket,AIO/NIO技术,熟练使用Gradle、Maven、Spring Boot2、SpringMVC、MyBatis; 熟炼掌握Oracle、MySql、SQLite、MongoDB等数据库开发 熟悉React、Vue等框架 ;熟练运用Git/Github, SVN,CC等 熟悉报表工具BI、ETL工具Kettle ;熟悉Asp.net平台,熟悉C#;熟练开发安卓和ios
展开
-
数仓建设(一)
想了想,我们的数仓的建设是基于大数据平台进行的,中间也经历了比较曲折的过程。每个行业都有自身的业务区别,不过很多还是比较相通的。本文将全面讲解数仓建设规范,从数据模型规范,到数仓公共规范,数仓各层规范,最后到数仓命名规范,包括表命名,指标字段命名规范等!目录:一、数据模型架构原则二、数仓公共开发规范三、数仓各层开发规范四、数仓命名规范。原创 2023-10-18 00:07:23 · 319 阅读 · 0 评论 -
ElasticSearch 索引创建
创建索引是使用Elasticsearch的关键步骤之一。在创建索引时,您需要考虑字段类型、分析器、嵌套和多个映射等因素。您还可以使用别名、分片和副本等功能来提高系统的容错性、性能和可用性。在创建索引之前,请确保您已经安装了Elasticsearch并启动了服务器。您还需要使用适当的REST客户端与服务器进行交互。如果您遇到问题,请查看Elasticsearch文档或参考Elasticsearch社区中的其它资源。#ChatGPT协助生成。原创 2023-03-21 09:30:00 · 9380 阅读 · 5 评论 -
Elasticsearch 安装(8.6.2)
在本章中,我们将详细了解Elasticsearch的安装过程。要在本地计算机上安装Elasticsearch,您将必须执行以下步骤-−检查计算机上安装的Java版本。它应该是Java 7或更高版本。您可以通过执行以下操作进行检查-在Windows操作系统(OS)中(使用命令提示符)-- Elasticsearch的安装过程非常容易,下面介绍在不同的操作系统如何安装 -原创 2023-03-17 07:00:00 · 1705 阅读 · 0 评论 -
ElasticSearch 常用命令大全
Elasticsearch官方提供了完整的文档,包括安装、配置、使用、管理等等方面的内容,是最基础也是最重要的入门资料。原创 2023-03-17 00:10:31 · 1377 阅读 · 0 评论 -
ElasticSearch简介
Elasticsearch 是一个非常强大的搜索引擎。它目前被广泛地使用于各个 IT 公司。Elasticsearch 是由 Elastic 公司创建。它的代码位于 GitHub - elastic/elasticsearch: Free and Open, Distributed, RESTful Search Engine。Elasticsearch 是一个分布式、免费和开放的搜索和分析引擎,适用于所有类型的数据,包括文本、数字、地理空间、结构化和非结构化数据。原创 2023-03-12 08:00:00 · 266 阅读 · 1 评论 -
学习 Kafka 入门知识看这一篇就够了!(万字长文)
如果要降低潜在的延迟,就可以把参数值设置的小一些。跟其他与字节相关的配置参数一样,该参数指的是压缩后的消息大小,也就是说,只要压缩后的消息小于 mesage.max.bytes,那么消息的实际大小可以大于这个值。,比如我们经常回去淘宝购物,你打开淘宝的那一刻,你的登陆信息,登陆次数都会作为消息传输到 Kafka 后台,当你浏览购物的时候,你的浏览信息,你的搜索指数,你的购物爱好都会作为一个个消息传递给 Kafka 后台,然后淘宝会根据你的爱好做智能推荐,致使你的钱包从来都禁不住诱惑,那么这些生产者产生的。转载 2023-02-23 09:30:00 · 4937 阅读 · 5 评论 -
Hbase Java API操作
Hbase有多种不同的客户端,如REST客户端,Thift客户端,ORM框架Kundera等等。Hbase也提供了Java的API来操作表与列簇等信息,它的shell就是对Java的API做了一层封装。我们还是直接看代码这样理解的更容易环境。转载 2023-02-23 08:15:00 · 2621 阅读 · 0 评论 -
CDP中的Hive3系列之Apache Hive3的特性
Cloudera 数据平台 (CDP) 服务,提供 Apache Tez 执行的 Apache Hive SQL 数据库。Hive on Tez 服务提供基于 Apache Hive 3.x 的基于 SQL 的数据仓库系统。Hive 3.x 中相对于以前版本的增强可以提高 SQL 查询性能、安全性和审计功能。Hive Metastore (HMS) 是一个单独的服务,不是 Hive 的一部分,甚至不一定在同一个集群上。HMS 将元数据存储在后端,用于 Hive、Impala、Spark 和其他组件。翻译 2023-02-15 09:00:00 · 646 阅读 · 2 评论 -
CDP中的Hive3系列之Hive3使用指南
在了解了Apache Hive3的特性和启动Hive后,就需要了解如何使用Apache Hive3.翻译 2023-02-15 08:30:00 · 1448 阅读 · 0 评论 -
升级到 CDP 后Hive on Tez 性能调整和故障排除指南
此博客介绍了有关 CDP 的 Hive on Tez 查询的一些基本故障排除和调整指南。作为查询性能分析的第一步,您应该验证并验证在 Hive 和 Hive on Tez 服务上设置的所有配置。所做的每一项更改都应进行测试,以确保其做出可衡量且有益的改进。查询调优是一项专门的工作,并非所有查询都可以通过更改 Tez 配置属性来更好地执行。您可能会遇到需要深入研究 SQL 查询以优化和提高执行和性能的场景。如果您需要有关性能调整工作的更多帮助,请联系您的 Cloudera 帐户和专业服务团队以提供指导。原创 2023-02-09 09:30:00 · 1740 阅读 · 0 评论 -
HBase的预分区与HBase的rowKey的设计原则
1.HBase是面向列式存储的分布式的NoSql数据库;2.HBase底层是基于HDFS实现的,集群是通过Zookeeper管理的;3.海量存储,快速访问。RowKey与关系型数据库中的主键相似,HBase 使用 RowKey 来唯一标识某行的数据。原创 2023-02-08 10:45:00 · 692 阅读 · 0 评论 -
Hive分析函数系列文章
Hive分析窗口函数(五) GROUPING SETS,GROUPING__ID,CUBE,ROLLUP。Hive分析窗口函数(二) NTILE,ROW_NUMBER,RANK,DENSE_RANK。Hive分析窗口函数(四) LAG,LEAD,FIRST_VALUE,LAST_VALUE。Hive分析窗口函数(三) CUME_DIST,PERCENT_RANK。Hive分析窗口函数(一) SUM,AVG,MIN,MAX。Hive函数大全–完整版(一)Hive函数大全–完整版(三)Hive-基本操作入门。原创 2023-02-02 23:51:09 · 301 阅读 · 0 评论 -
kafka时间戳的详解及使用
Kafka从0.10.0.0版本起,在消息内新增加了个timestamp字段,在Kafka 0.10.1.0以前(不包含0.10.1.0),对于一个Topic而言,其Log Segment是由一个.log文档和一个.index文档组合而成,分别用来存储具体的消息数据和对应的偏移量。原创 2023-02-01 08:30:00 · 3066 阅读 · 3 评论 -
Hive UDF开发
Hive中,除了提供丰富的内置函数(见)之外,还允许用户使用Java开发自定义的UDF函数。开发自定义UDF函数有两种方式,一个是继承org.apache.hadoop.hive.ql.exec.UDF,另一个是继承org.apache.hadoop.hive.ql.udf.generic.GenericUDF;原创 2023-01-31 08:30:00 · 628 阅读 · 0 评论 -
Hive整合HBase,操作HBase表
HBase是被设计用来做k-v查询的,但有时候,也会遇到基于HBase表的复杂统计,写MR很不方便。Hive考虑到了这点,提供了操作HBase表的接口。值得商榷的是,使用Hive操作HBase中的表,只是提供了便捷性,对于性能上,较MapReduce并不会提升太多,请大家酌情使用。原创 2023-01-27 16:00:20 · 1217 阅读 · 2 评论 -
Hive整合HBase,操作HBase表
Hive与HBase利用两者本身对外的API来实现整合,主要是靠HBaseStorageHandler进行通信,利用 HBaseStorageHandler,Hive可以获取到Hive表对应的HBase表名,列簇以及列,InputFormat和 OutputFormat类,创建和删除HBase表等。Hive访问HBase中表数据,实质上是通过MapReduce读取HBase表数据,其实现是在MR中,使用HiveHBaseTableInputFormat完成对HBase表的切分,获取RecordReader原创 2023-01-27 11:14:12 · 1689 阅读 · 2 评论 -
Hive MetaStore 元数据库常见操作
hive元数据库中比较重要的一些表的作用,我们可以通过mysql元数据库分析相关字段引用情况,为我们定位和处理问题提供支持。同时可以用来分析现在的数据的存取情况。原创 2023-01-28 08:30:00 · 772 阅读 · 1 评论 -
Hive的元数据表结构及统计分析Statistics
类似于Oracle,Hive自己维护了一套元数据,用户通过HQL查询时候,Hive首先需要结合元数据,将HQL翻译成MapReduce去执行。Hive中也提供了分析表和分区的功能,通过自动和手动分析Hive表,将Hive表的一些统计信息存储到元数据中。表和分区的统计信息主要包括:行数、文件数、原始数据大小、所占存储大小、最后一次操作时间等;原创 2023-01-27 08:00:00 · 1424 阅读 · 0 评论 -
HBase常用命令(超全超详细)
本节我们将向您展示如何使用 hbase shell CLI 在 HBase 中创建表、在表中插入行、对表执行放置和扫描操作、启用或禁用表以及启动和停止 HBase。主要讲述了HBase的CRUD等基本DDL和DML操作。HBase Shell 中的删除键没用,要用【Ctrl+Backspace】,每个命令之后不需要分号(;)结束。原创 2023-01-25 23:29:26 · 14416 阅读 · 0 评论 -
HBase原理和设计
HBase —— Hadoop Database的简称,Google BigTable的另一种开源实现方式,从问世之初,就为了解决用大量廉价的机器高速存取海量数据、实现数据分布式存储提供可靠的方案。从功能上来讲,HBase不折不扣是一个数据库,与我们熟悉的Oracle、MySQL、MSSQL等一样,对外提供数据的存储和读取服务。而从应用的角度来说,HBase与一般的数据库又有所区别,HBase本身的存取接口相当简单,不支持复杂的数据存取,更不支持SQL等结构化的查询语言;原创 2023-01-25 23:19:44 · 1024 阅读 · 0 评论 -
Hive入门实战(一)概述与使用
Hive简介,HIVE入门系列,主要讲述HIVE是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。原创 2023-01-08 23:49:42 · 229 阅读 · 2 评论