- 博客(109)
- 资源 (7)
- 收藏
- 关注
翻译 CDP中的Hive3系列之Apache Hive3的特性
Cloudera 数据平台 (CDP) 服务,提供 Apache Tez 执行的 Apache Hive SQL 数据库。Hive on Tez 服务提供基于 Apache Hive 3.x 的基于 SQL 的数据仓库系统。Hive 3.x 中相对于以前版本的增强可以提高 SQL 查询性能、安全性和审计功能。Hive Metastore (HMS) 是一个单独的服务,不是 Hive 的一部分,甚至不一定在同一个集群上。HMS 将元数据存储在后端,用于 Hive、Impala、Spark 和其他组件。
2023-02-15 09:00:00
689
2
翻译 CDP中的Hive3系列之Hive3使用指南
在了解了Apache Hive3的特性和启动Hive后,就需要了解如何使用Apache Hive3.
2023-02-15 08:30:00
1667
原创 升级到 CDP 后Hive on Tez 性能调整和故障排除指南
此博客介绍了有关 CDP 的 Hive on Tez 查询的一些基本故障排除和调整指南。作为查询性能分析的第一步,您应该验证并验证在 Hive 和 Hive on Tez 服务上设置的所有配置。所做的每一项更改都应进行测试,以确保其做出可衡量且有益的改进。查询调优是一项专门的工作,并非所有查询都可以通过更改 Tez 配置属性来更好地执行。您可能会遇到需要深入研究 SQL 查询以优化和提高执行和性能的场景。如果您需要有关性能调整工作的更多帮助,请联系您的 Cloudera 帐户和专业服务团队以提供指导。
2023-02-09 09:30:00
1852
转载 kafka listeners和advertised配置
listenerslisteners就是主要用来定义Kafka Broker的Listener的配置项。advertised.listenersadvertised.listeners参数的作用就是将Broker的Listener信息发布到Zookeeper中inter.broker.listener.nameinter.broker.listener.name:专门用于Kafka集群中Broker之间的通信
2023-02-08 15:45:46
4717
原创 HBase的预分区与HBase的rowKey的设计原则
1.HBase是面向列式存储的分布式的NoSql数据库;2.HBase底层是基于HDFS实现的,集群是通过Zookeeper管理的;3.海量存储,快速访问。RowKey与关系型数据库中的主键相似,HBase 使用 RowKey 来唯一标识某行的数据。
2023-02-08 10:45:00
727
原创 Python3 JSON 数据解析
JSON (JavaScript Object Notation) 是一种轻量级的数据交换格式。它基于 ECMAScript 的一个子集。
2023-02-07 08:15:00
364
原创 Python3 MySQL 数据库连接
PyMySQL 是在 Python3.x 版本中用于连接 MySQL 服务器的一个库,Python2 中则使用mysqldb。PyMySQL 遵循 Python 数据库 API v2.0 规范,并包含了 pure-Python MySQL 客户端库。
2023-02-06 08:00:00
564
原创 Python3 多线程
线程在执行过程中与进程还是有区别的。每个独立的线程有一个程序运行的入口、顺序执行序列和程序的出口。但是线程不能够独立执行,必须依存在应用程序中,由应用程序提供多个线程执行控制。每个线程都有他自己的一组 CPU 寄存器,称为线程的上下文,该上下文反映了线程上次运行该线程的 CPU 寄存器的状态。指令指针和堆栈指针寄存器是线程上下文中两个最重要的寄存器,线程总是在进程得到上下文中运行的,这些地址都用于标志拥有线程的进程地址空间中的内存。thread 模块已被废弃。用户可以使用 threading 模块代替。
2023-02-06 08:00:00
383
原创 Python3 正则表达式
在 Python3 中正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某种模式匹配。Python 自1.5版本起增加了re 模块,它提供 Perl 风格的正则表达式模式。re 模块使 Python 语言拥有全部的正则表达式功能。compile 函数根据一个模式字符串和可选的标志参数生成一个正则表达式对象。该对象拥有一系列方法用于正则表达式匹配和替换。re 模块也提供了与这些方法功能完全一致的函数,这些函数使用一个模式字符串做为它们的第一个参数。
2023-02-05 08:00:00
760
转载 Hive分析窗口函数(五) GROUPING SETS,GROUPING__ID,CUBE,ROLLUP
这几个分析函数通常用于OLAP中,不能累加,而且需要根据不同维度上钻和下钻的指标统计,比如,分小时、天、月的UV数。
2023-02-03 08:45:00
227
转载 Hive分析窗口函数(三) CUME_DIST,PERCENT_RANK
这两个序列分析函数不是很常用,这里也介绍一下。(什么是WINDOW子句,
2023-02-03 08:30:00
483
1
原创 Hive分析函数系列文章
Hive分析窗口函数(五) GROUPING SETS,GROUPING__ID,CUBE,ROLLUP。Hive分析窗口函数(二) NTILE,ROW_NUMBER,RANK,DENSE_RANK。Hive分析窗口函数(四) LAG,LEAD,FIRST_VALUE,LAST_VALUE。Hive分析窗口函数(三) CUME_DIST,PERCENT_RANK。Hive分析窗口函数(一) SUM,AVG,MIN,MAX。Hive函数大全–完整版(一)Hive函数大全–完整版(三)Hive-基本操作入门。
2023-02-02 23:51:09
402
转载 Hive分析窗口函数(二) NTILE,ROW_NUMBER,RANK,DENSE_RANK
本文中介绍前几个序列函数,NTILE,ROW_NUMBER,RANK,DENSE_RANK,下面会一一解释各自的用途。
2023-02-02 23:11:00
262
转载 Hive分析窗口函数(四) LAG,LEAD,FIRST_VALUE,LAST_VALUE
注意: 这几个函数不支持WINDOW子句。(什么是WINDOW子句,点此查看前面的文章 )数据准备:LAGLAG(col,n,DEFAULT) 用于统计窗口内往上第n行值第一个参数为列名,第二个参数为往上第n行(可选,默认为1),第三个参数为默认值(当往上第n行为NULL时候,取默认值,如不指定,则为NULL)LEAD与LAG相反LEAD(col,n,DEFAULT) 用于统计窗口内往下第n行值第一个参数为列名,第二个参数为往下第n行(可选,默认为1),第三个参数为默认
2023-02-02 08:37:29
499
1
转载 Hive分析窗口函数(一) SUM,AVG,MIN,MAX
Hive中提供了越来越多的分析函数,用于完成负责的统计分析。抽时间将所有的分析窗口函数理一遍,将陆续发布。今天先看几个基础的,SUM、AVG、MIN、MAX。用于实现分组内所有和连续累积的统计。
2023-02-02 08:34:00
345
原创 java.lang.IllegalStateException: unread block data
Spark 通过HIVE ON HBASE表读取数据源,报错:unread block data
2023-02-01 08:30:00
1917
3
原创 kafka时间戳的详解及使用
Kafka从0.10.0.0版本起,在消息内新增加了个timestamp字段,在Kafka 0.10.1.0以前(不包含0.10.1.0),对于一个Topic而言,其Log Segment是由一个.log文档和一个.index文档组合而成,分别用来存储具体的消息数据和对应的偏移量。
2023-02-01 08:30:00
3186
3
原创 SQL Server 关键词
保留关键字是 SQL Server 使用的 Transact-SQL 语言语法的一部分,用于分析和理解 Transact-SQL 语句和批处理。尽管在 Transact-SQL 脚本中,使用 SQL Server 保留关键字作为标识符和对象名在语法上是可行的,但规定只能使用分隔标识符。有关更多信息,请参见。说明 SQL-92 保留关键字列表有时可能比 SQL Server 限制更多,有时则限制更少。例如,SQL-92 保留关键字列表包含 INT,而 SQL Server 不需要将其区分为保留关键字。
2023-01-31 10:50:40
1007
4
原创 Python3 错误和异常
作为 Python 初学者,在刚学习 Python 编程时,经常会看到一些报错信息,在前面我们没有提及,这章节我们会专门介绍。Python 有两种错误很容易辨认:语法错误和异常。
2023-01-31 08:30:00
427
原创 Hive UDF开发
Hive中,除了提供丰富的内置函数(见)之外,还允许用户使用Java开发自定义的UDF函数。开发自定义UDF函数有两种方式,一个是继承org.apache.hadoop.hive.ql.exec.UDF,另一个是继承org.apache.hadoop.hive.ql.udf.generic.GenericUDF;
2023-01-31 08:30:00
648
原创 Python3 File(文件) + OS 方法
读取所有行并返回列表,若给定sizeint>0,返回总和大约为sizeint字节的行, 实际读取值可能比 sizeint 较大, 因为需要填充缓冲区。在对文件进行处理过程都需要使用到这个函数,如果该文件无法被打开,会抛出 OSError。刷新文件内部缓冲,直接把内部缓冲区的数据立刻写入文件, 而不是被动的等待输出缓冲区写入。使用 open() 方法一定要保证关闭文件对象,即调用 close() 方法。Python open() 方法用于打开一个文件,并返回文件对象。读取整行,包括 "\n" 字符。
2023-01-30 08:30:00
1024
4
原创 Python3 面向对象
类(Class):用来描述具有相同的属性和方法的对象的集合。它定义了该集合中每个对象所共有的属性和方法。对象是类的实例。类变量在整个实例化的对象中是公用的。类变量定义在类中且在函数体之外。类变量通常不作为实例变量使用。类变量或者实例变量用于处理类及其实例对象的相关的数据。如果从父类继承的方法不能满足子类的需求,可以对其进行改写,这个过程叫方法的覆盖(override),也称为方法的重写。定义在方法中的变量,只作用于当前实例的类。在类的声明中,属性是用变量来表示的。
2023-01-30 08:30:00
539
2
原创 Python 读取大文件
Python读取文件大小大于内存,这么处理就有问题了,会造成MemoryError … 也就是发生内存溢出。那么改如何避免或者定位呢
2023-01-29 08:30:00
2639
原创 Python3 输入和输出
在前面几个章节中,我们其实已经接触了 Python 的输入输出的功能。本章节我们将具体介绍 Python 的输入输出。
2023-01-29 08:30:00
600
原创 Python 模块和包
模块让你能够有逻辑地组织你的 Python 代码段。把相关的代码分配到一个 模块里能让你的代码更好用,更易懂。模块也是 Python 对象,具有随机的名字属性用来绑定或引用。简单地说,模块就是一个保存了 Python 代码的文件[以py结尾]。模块能定义函数,类和变量。模块里也能包含可执行的代码。模块可以被别的程序引入,以使用该模块中的函数等功能。这也是使用 python 标准库的方法。包是一个分层次的文件目录结构,它定义了一个由模块及子包,和子包下的子包等组成的 Python 的应用环境。
2023-01-28 08:30:00
481
原创 Hive MetaStore 元数据库常见操作
hive元数据库中比较重要的一些表的作用,我们可以通过mysql元数据库分析相关字段引用情况,为我们定位和处理问题提供支持。同时可以用来分析现在的数据的存取情况。
2023-01-28 08:30:00
822
1
原创 Hive整合HBase,操作HBase表
HBase是被设计用来做k-v查询的,但有时候,也会遇到基于HBase表的复杂统计,写MR很不方便。Hive考虑到了这点,提供了操作HBase表的接口。值得商榷的是,使用Hive操作HBase中的表,只是提供了便捷性,对于性能上,较MapReduce并不会提升太多,请大家酌情使用。
2023-01-27 16:00:20
1252
2
原创 ASCII表
ASCII(American Standard Code for Information Interchange,美国信息互换标准代码)是一套基于拉丁字母的字符编码,共收录了 128 个字符,用一个字节就可以存储,它等同于国际标准 ISO/IEC 646。ASCII 编码于 1967 年第一次发布,最后一次更新是在 1986 年,迄今为止共收录了 128 个字符,包含了基本的拉丁字母(英文字母)、阿拉伯数字(也就是 1234567890)、标点符号(,.!
2023-01-27 12:11:12
835
1
原创 Hive整合HBase,操作HBase表
Hive与HBase利用两者本身对外的API来实现整合,主要是靠HBaseStorageHandler进行通信,利用 HBaseStorageHandler,Hive可以获取到Hive表对应的HBase表名,列簇以及列,InputFormat和 OutputFormat类,创建和删除HBase表等。Hive访问HBase中表数据,实质上是通过MapReduce读取HBase表数据,其实现是在MR中,使用HiveHBaseTableInputFormat完成对HBase表的切分,获取RecordReader
2023-01-27 11:14:12
1733
2
原创 Python3 函数
函数代码块以def关键词开头,后接函数标识符名称和圆括号()。任何传入参数和自变量必须放在圆括号中间,圆括号之间可以用于定义参数。函数的第一行语句可以选择性地使用文档字符串—用于存放函数说明。函数内容以冒号 : 起始,并且缩进。return [表达式]结束函数,选择性地返回一个值给调用方,不带表达式的 return 相当于返回 None。语法def 函数名(参数列表):函数体默认情况下,参数值和参数名称是按函数声明中定义的顺序匹配起来的。
2023-01-27 08:30:00
630
2
原创 Python 日期和时间
Python 能用很多方式处理日期和时间,转换日期格式是一个常见的功能。Python提供了 time和calendar模块可以用于格式化日期和时间。时间间隔是以秒为单位的浮点型小数。每个时间戳都以自从 公元1970 年 1 月 1 日0:00到现在所经过的时间来表示。
2023-01-27 08:30:00
829
原创 Hive的元数据表结构及统计分析Statistics
类似于Oracle,Hive自己维护了一套元数据,用户通过HQL查询时候,Hive首先需要结合元数据,将HQL翻译成MapReduce去执行。Hive中也提供了分析表和分区的功能,通过自动和手动分析Hive表,将Hive表的一些统计信息存储到元数据中。表和分区的统计信息主要包括:行数、文件数、原始数据大小、所占存储大小、最后一次操作时间等;
2023-01-27 08:00:00
1512
原创 Python3 迭代器与生成器
在调用生成器运行的过程中,每次遇到 yield 时函数会暂停并保存当前所有的运行信息,返回 yield 的值。跟普通函数不同的是,生成器是一个返回迭代器的函数,只能用于迭代操作,更简单点理解生成器就是一个迭代器。迭代器对象从集合的第一个元素开始访问,直到所有的元素被访问完结束。迭代器只能往前不会后退。在 Python 中,使用了 yield 的函数被称为生成器(generator)。迭代是 Python 最强大的功能之一,是访问集合元素的一种方式。迭代器是一个可以记住遍历的位置的对象。
2023-01-26 08:30:00
945
原创 HBase原理和设计
HBase —— Hadoop Database的简称,Google BigTable的另一种开源实现方式,从问世之初,就为了解决用大量廉价的机器高速存取海量数据、实现数据分布式存储提供可靠的方案。从功能上来讲,HBase不折不扣是一个数据库,与我们熟悉的Oracle、MySQL、MSSQL等一样,对外提供数据的存储和读取服务。而从应用的角度来说,HBase与一般的数据库又有所区别,HBase本身的存取接口相当简单,不支持复杂的数据存取,更不支持SQL等结构化的查询语言;
2023-01-25 23:19:44
1066
原创 Python3 集合
集合(set)是一个无序的不重复元素序列。可以使用大括号 { } 或者 set() 函数创建集合,注意:创建一个空集合必须用 set() 而不是 { },因为 { } 是用来创建一个空字典。创建格式:或者set(value)
2023-01-24 22:39:46
512
原创 Hive-基本操作入门
Hive是一种数据库技术,可以定义数据库和表来分析结构化数据。主题结构化数据分析是以表方式存储数据,并通过查询来分析。本章介绍如何创建Hive 数据库。配置单元包含一个名为 default 默认的数据库。
2023-01-23 21:38:33
616
2
ssm+vue汉服文化平台网站 java毕业设计springboot汉服文化平台网站
2023-12-12
Android Studio个人通讯录大作业
2023-12-12
Java基于Vue+node.js+Element-UI+MySql实现一个超市管理系统-2020122803
2023-12-12
html+php实现美食网站(超高分作业)毕业设计
2023-12-05
c语言课程设计-职工资源管理系统源码分享,有需要的朋友拿走
2023-12-05
10个数据结构课程设计例子的简要介绍和代码示例
2023-12-05
基于python的数据可视化 + django 学生成绩管理系统
2023-11-12
基于python的数据可视化 + 基于大数据的应届生求职系统
2023-11-12
基于python的数据可视化分析 - 疫情数据可视化分析系统
2023-11-12
基于java的小游戏设计
2023-11-12
大学生二手闲置物品交易平台代码 学生信息管理系统java
2023-11-12
学生信息管理系统Java
2023-11-12
使用函数输出水仙花C实现,Python实现
2023-11-12
学生信息管理系统java
2023-11-12
远程健康监控-20210326.zip
2023-10-30
基于springboot框架的企业合同管理系统设计与实现.zip
2023-10-30
鸿蒙Android的宿舍管理系统.zip
2023-10-30
鸿蒙系统,安卓系统APP作业
2023-10-30
springboot基于vue的MOBA类游戏攻略分享平台
2023-05-06
2023AIGC产业发展及应用白皮书-创客贴-2023-50页.pdf
2023-05-03
中国AIGC产业全景报告暨AIGC+50榜单.pdf
2023-05-03
2020123102-安卓明信片大作业
2023-05-03
2020122805-基于Android的学生信息管理大作业-ALL
2023-05-03
2020122805-基于Android的学生信息管理大作业-ALL
2023-05-03
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅