秃头令人头秃丶-CSDN博客

原创 Hive分区表和分桶表

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档Hive分区表和分桶表前言一、分区表Partition Informationcol_name data_type comment二、分桶表1.引入库2.读入数据总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。提示：以下是本篇文章正文内容，下面案例可供参考一、分区表示例：pandas 是基于NumPy 的一

2021-01-12 17:30:17 238

原创 Hive语法之查询语句DQL

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档Hive语法之查询语句DQL前言一、基本查询1.1 全表和特定列查询1.2 列别名1.3 算术运算符1.4 常用函数1.5 limit和where语句1.6 比较运算符（Between/In/ Is Null）1.7 Like 和和 RLike1.8 逻辑运算符（And/Or/Not ）二、分组查询2.1 Group by 语句1.引入库2.读入数据总结前言本文主要讲述Hive语法中的查询语句参考网站https://cwiki.

2021-01-11 11:57:50 367 1

原创 Hive语法之DML数据操纵语言

Hive语法之DML数据操纵语言前言一、数据导入1.1 向表中装载数据1.2 通过查询语句向表中插入数据（Insert ）1.3 查询语句中创建表并加载数据（As Select））1.4 创建表时通过 Location 指定加载数据路径1.5 Import 数据到指定 Hive 表中二、数据导出2.1 Insert 导出2.2 Hadoop 命令导出到本地2.3 Hive Shell 命令导出2.4 Export 导出到 HDFS 上2.5 清除表中数据（Truncate ）总结前言本文主要讲了H.

2021-01-04 17:49:18 219

原创 Hive语法之DDL数据定义

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档Hive语法之DDL数据定义前言一、Hive数据库操作1.1 创建数据库1.2 查询数据库1.3 修改数据库1.4 删除数据库二、Hive表操作2.1 创建表2.2 管理表2.3 内部表和外部表的相互转换2.4 修改表总结前言本文介绍了Hive中DDL数据定义语言的使用。提示：以下是本篇文章正文内容，下面案例可供参考一、Hive数据库操作1.1 创建数据库CREATE DATABASE [IF NOT EXISTS] dat

2021-01-04 17:17:17 177

原创 Hive数据类型

Hive数据类型前言一、基本数据类型二、集合数据类型三.类型转化总结前言本文主要讲解Hive数据类型及其使用一、基本数据类型可以看到在常用的数据类型中，除了long类型在Hive中的类型为BIGINT,其他的的数据类型表达和Java的数据类型表达基本相同。对于 Hive 的 String 类型相当于数据库的 varchar 类型，该类型是一个可变的字符串，不过它不能声明其中最多能存储多少个字符，理论上它可以存储 2GB 的字符数。二、集合数据类型Hive 有三种复杂数据类型 ARRAY、

2021-01-04 10:55:08 348

原创 Hive入门教程

文章目录前言一、Hive的基本概念1.1 什么是Hive?1.2 Hive优缺点1.3 Hive架构1.4 Hive与传统数据库比较二、Hive 安装与使用2.1 安装部署2.2 启动并使用Hive2.3 Hive元数据配置到MySQL2.4 使用元数据服务的方式访问 Hive2.5 使用 JDBC 问方式访问 Hive2.6 Hive 常用交互命令2.7 Hive 其他命令操作2.8 Hive 常见属性配置总结前言本文介绍的是Hadoop下的数据仓库工Hive的入门与使用一、Hive的基本概

2020-12-30 17:37:36 617 6

原创在springboot中使用Kafka

在springboot中使用Kafka文章目录在springboot中使用Kafka前言一、Kafka是什么？二、使用步骤1.引入依赖2.编写配置文件2.生产者代码3.消费者代码4.测试总结前言随着大数据的发展，Kafka变得愈发重要，本文主要介绍Kafka在Springboot中的使用一、Kafka是什么？Kafka是由Apache软件基金会开发的一个开源流处理平台，由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者在网站中的所有动作流数据。这

2020-12-30 15:00:29 2909

原创 Kafka文件存储机制和分区策略以及数据可靠性保证

Kafka存储机制和分区策略以及数据可靠性保证1、存储机制1.1 Kafka工作流程Kafka 中消息是以 topic 进行分类的，生产者生产消息，消费者消费消息，都是面向 topic 的。 topic 是逻辑上的概念，而 partition 是物理上的概念，每个 partition 对应于一个 log 文件，该 log文件中存储的就是 producer 生产的数据。Producer 生产的数据会被不断追加到该log 文件末端，且每条数据都有自己的offset。消费者组中的每个消费者，.

2020-12-21 14:34:04 581

原创 Kafka在消费者反序列化时出现问题

Kafka在消费者反序列化时出现问题问题描述今天在启动Kafka时，出现了一些问题。Kafka启动后，卡在了某一消费点，报Missing exception handling for deserialization of key values，提示缺少对键值反序列的异常处理，并且系统一直重复反序列化该调记录，一直失败，陷入死循环。上网查询解决办法发现这种现象是当生产者序列化程序和消费者反序列化程序不兼容时产生的一种毒丸场景。在以下场景可能会发生毒丸现象：生产者更改了键或值序列化器，并

2020-12-17 09:39:39 4391

原创 Kakfa入门与使用

Kakfa入门与使用1、Kafka介绍1.1 Kafka的概念Kafka是一个分布式流处理平台具有以下三个特性：可以让你发布和订阅流式的记录。这一方面与消息队列或者企业消息系统类似。可以储存流式的记录，并且有较好的容错性。可以在流式记录产生时就进行处理。 1.2 Kafka的应用场景构造实时流数据管道，它可以在系统或应用之间可靠地获取数据。 (相当于message queue) 构建实时流式应用程序，对这些流数据进行转换或者影响。 (就是

2020-12-08 10:40:45 353