自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(39)
  • 收藏
  • 关注

原创 HIVE数据仓库——拉链表

拉链表记录一个事物从开始,一直到当前状态的所有变化的信息。可以使用这张表拿到最新的当天的最新数据以及之前的历史数据。

2023-06-21 08:56:21 895

转载 关于oracle数据库中出现ORA-00907: 缺失右括号的解决方法(转)

在开发过程中使用oracle数据库,在程序中进行查询数据时遇到了“ORA-00907: 缺失右括号”的问题,但是如果直接把sql语句直接在数据库或SQL中执行时,却又能够正常查询,为了解决这个问题,查找了一些资料,对各种导致出现“缺失右括号”的情况进行了整理总结。此种情况跟1中描绘的有些类似,首先在in(子查询)用法使用order by 会报错,其次,子查询里用order by,纯属多此一举,子查询的目的,只是找出合适的数据。在查询时引发缺失右括号错误的原因大多数在于查询语句中有关于日期的转化、过滤。

2023-06-15 19:17:38 1179

原创 Apache Spark 的基本概念重点和在大数据分析中的应用

Apache Spark 是一个用于分布式数据处理的开源计算框架,它可以处理大规模数据集并提供了快速的数据处理速度。Spark 最初是由加州大学伯克利分校的AMPLab开发的,目的是为了解决 Hadoop MapReduce 在迭代计算、交互式数据挖掘以及实时数据流处理等方面的性能瓶颈。

2023-06-06 14:36:10 271

原创 数仓|Hive性能调优(二)

这样比起上面调整mapper数时,又会多出两个参数,分别是mapred.min.split.size.per.node和mapred.min.split.size.per.rack,含义是单节点和单机架上的最小split大小。需要更改Hive的输入文件格式,即参数hive.input.format,默认值是org.apache.hadoop.hive.ql.io.HiveInputFormat,我们改成org.apache.hadoop.hive.ql.io.CombineHiveInputFormat。

2023-06-05 19:53:25 100

原创 数仓|Hive性能调优(一)

hive优化(1)

2023-06-05 11:57:56 121

原创 KAFKA应用——Flume对接Kafka

Flume对接Kafka

2022-07-19 09:30:00 326

原创 kafka应用——自定义Interceptor

kafka应用

2022-07-18 22:24:02 133 1

原创 KAFKA应用(复)

kafka的应用——消费者

2022-07-17 12:45:00 1120

原创 KAFKA应用——Consumer API

KAFKA应用——Consumer API

2022-07-16 23:28:36 167

原创 KAFKA应用——Producer API

KAFKA应用——Producer API

2022-07-14 22:43:56 124

原创 kafka应用

kafka的应用

2022-07-13 23:22:59 473

原创 Flume框架应用

Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。

2022-03-11 10:46:36 225

原创 Flume快速入门&&企业开发案例

选项参数:-t或--tcp:显示TCP传输协议的连线状况;-u或--udp:显示UDP传输协议的连线状况-n或--numeric:直接使用ip地址,而不通过域名服务器-l或--listening:显示监控中的服务器的Socket-p或--programs:显示正在使用Socket的程序识别码(PID)和程序名称

2022-02-15 02:00:00 169

原创 Flume的概述

包括Impala、Hue、Flume都属于专有框架,就是只干一件事。第一结构简单不复杂,第二功能比较单一。

2022-02-13 01:00:00 923

原创 分区——合理设置Map及Reduce数、复杂文件增加Map数

合理设置Map及Reduce数如果MapReduce数据量过少,则单个的处理数据量过大;如果MapReduce数据量过多,则抢资源。

2022-02-11 21:37:45 2163

原创 HIVE企业级调优

其实hive的调优就是hadoop的调优。因为hive本质上就是mapreduce,大部分和hadoop都很像。

2022-02-11 21:29:53 778

原创 Hive压缩和存储

主要介绍hive的优化功能。

2022-01-27 16:00:00 549

原创 Hive函数

函数

2022-01-26 18:45:09 85

原创 Hive的查询操作(二)

分桶及抽样查询和其他基本查询操作

2022-01-24 08:15:00 2324

原创 Hive查询操作(一)

查询数据仓库是典型的查多写少,这个是根据HDFS本身的特点来的。HDFS本身不支持随机修改,只支持追加。所以Hive读多改少,写就写一遍,重点在查询。查询的用处在方方面面都有,比如insert等,都需要查询。https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Select查询语句语法: [WITH CommonTableExpression (, CommonTableExp...

2022-01-22 22:16:04 2642

原创 DML数据操作

DML数据操作

2022-01-22 22:00:01 1249

原创 DDL数据定义

DDL数据定义、创建数据库、查询数据库、修改数据库、删除数据库、创建表、分区表、修改表 、删除表 、Hive数据呈现方式、错误解决等

2022-01-21 10:00:00 403

原创 Hive数据类型

基本数据类型、集合数据类型、类型转化

2022-01-20 20:28:55 138

原创 Hive安装、Hive基本操作与常见属性配置

Hive安装地址、Hive安装部署 、MySQL安装 、Hive元数据配置到MySQL、Hive基本操作、将本地文件导入Hive案例 、HiveJDBC访问、Hive常用交互命令、Hive其他命令操作、Hive常见属性配置

2022-01-19 09:30:00 1253

原创 Hive基本概念

Hive基本概念,什么是hive

2022-01-18 16:39:45 98

原创 Zookeeper内部原理

Zookeeper内部原理,Stat结构体,监听器原理,Paxos算法(扩展)等

2022-01-18 16:19:48 192

原创 Zookeeper实战(开发重点)

Zookeeper实战(开发重点)、分布式安装部署、客户端命令行操作、API应用、箭头服务器节点动态上下线案例(扩展)​​​​​​​

2022-01-15 09:00:00 1094

原创 Zookeeper安装

Zookeeper安装,​​​本地模式安装部署和配置参数解读

2022-01-14 08:00:00 52

原创 ​​​​​​​Zookeeper入门

Zookeeper入门,Zookeeper是一个开源的分布式的,为分布式应用提供协调服务的Apache项目。

2022-01-13 16:44:44 714

原创 wordcount经典案例的实现

新建maven项目,导入项目所需要的依赖;Mapper阶段代码编写;Reduce阶段代码编写,定义Driver类,;描述 Job;使用maven将项目打包成jar包;MapReduce作业运行

2022-01-12 06:15:00 1160

原创 MapReduce分布式计算框架

MapReduce分布式计算框架、wordcount经典案例介绍、MapReduce进程介绍、MapReduce编程规范等

2022-01-11 14:40:03 1792

原创 HDFS读写数据流程&&错误问题解决

HDFS读写数据流程&&NameNode&Secondary NameNode工作机制&&错误问题解决

2022-01-10 15:28:50 1388

原创 通过Java实现HDFS操作及访问

通过Java实现HDFS操作及访问、maven软件安装与配置

2022-01-09 15:48:18 5082

原创 Hadoop Distributed File System(HDFS)

HDFS的概述,组成架构,参数大全,基本语法,常用命令实操

2022-01-08 15:09:39 966

原创 Hadoop集群环境搭建(二)

​​​​​​​​​​​​​​hadoop配置,安装jdk​​​​​​​、配置hadoop集群

2022-01-07 06:40:03 235

原创 Hadoop集群环境搭建(一)

Hadoop集群环境搭建,三台虚拟机设置,注意:需要使用VMWare Workstation Pro。不要用player。

2022-01-06 12:24:07 633

原创 安装Redis && Python中访问

安装配置redis ,安装gcc,最后在Python中连接访问

2022-01-05 12:33:21 951

原创 安装MySQL

mysql安装、卸载、设置、服务,Windows上远程访问Linux中的mysql

2022-01-04 10:53:45 941

原创 Linux环境搭建

Linux环境搭建,安装vmware,安装CentOS

2022-01-03 15:48:05 481

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除