快长枝枝、-CSDN博客

原创 Hive学习笔记06

若用户手动创建/删除分区路径，Hive都是感知不到的，这样就会导致Hive的元数据和HDFS的分区路径不一致。再比如，若分区表为外部表，用户执行drop partition命令后，分区元数据会被删除，而HDFS的分区路径不会被删除，同样会导致Hive的元数据和HDFS的分区路径不一致。对于一张表或者分区，Hive 可以进一步组织成桶，也就是更为细粒度的数据范围划分，分区针对的是数据的存储路径，分桶针对的是数据文件。在查询时通过where子句中的表达式选择查询所需要的分区，这样的查询效率会提高很多。

2023-10-08 21:02:02 96

原创 Hive学习笔记05

('宋青书','男','1981/03/15','2022/04/09','研发',18000,1000,array('王五','赵六'),map('宋小青',7,'宋小书',5)),('黄蓉','女','1982/12/13','2022/06/11','行政',12000,null,array('东邪','西毒'),map('郭芙',5,'郭襄',4)),--2/2 每一行数据中的friends集合里的个数。('12', '1003', '小辉', '2022-04-11', '75'),

2023-10-08 20:40:42 136

原创 Hive入门笔记04

Hive会将常用的逻辑封装成。

2023-09-24 21:21:00 253

原创 Hive入门笔记03

B的表达式说明如下：‘x%’表示A必须以字母‘x’开头，‘%x’表示A必须以字母‘x’结尾，而‘%x%’表示A包含有字母‘x’,可以位于开头，结尾或者字符串中间。如果A的值大于等于B而且小于或等于C，则结果为true，反之为false。，设计表字段时，表的字段与JSON字符串中的一级字段保持一致，对于具有嵌套结构的JSON字符串，考虑使用合适复杂数据类型保存其内容。该语法允许用户利用select查询语句返回的结果，直接建表，表的结构和查询语句的结构保持一致，且保证包含select查询语句放回的内容。

2023-09-24 20:46:03 178 1

原创 Hive入门学习笔记02

1）语法2）案例（1）创建一个数据库，不指定路径注：若不指定路径，其默认路径为（2）创建一个数据库，指定路径（3）创建一个数据库，带有dbproperties。

2023-09-17 21:34:15 110 1

原创 Hive入门学习笔记01

接口，为用户提供远程访问Hive数据的功能，例如用户期望在个人电脑中访问远程服务中的Hive数据，就需要用到Hiveserver2。4）首先退出hive客户端。元数据包括：数据库（默认是default）、表名、表的拥有者、列/分区字段、表的类型（是否是外部表）、表的数据所在目录等。3）在Xshell窗口中开启另一个窗口开启Hive，在/tmp/atguigu目录下监控hive.log文件。3）在Xshell窗口中开启另一个窗口开启Hive（两个窗口都可以操作Hive，没有出现异常）

2023-09-17 20:57:44 127 1

原创 Hadoop（Yarn）笔记07

是一个资源调度平台，负责为运算程序提供服务器运算资源，相当于一个，而等运算程序则相当于运行于操作系统之上的。

2023-09-10 21:23:45 99 1

原创 Hadoop（MapReduce数据清理、压缩）笔记06

1）输入数据接口：InputFormat（1）默认使用的实现类是：TextInputFormat（2）TextInputFormat 的功能逻辑是：一次读一行文本，然后将该行的起始偏移量作为key，行内容作为 value 返回。（3）CombineTextInputFormat 可以把多个小文件合并成一个切片处理，提高处理效率。2）逻辑处理接口：Mapper用户根据业务需求实现其中三个方法：map() setup() cleanup ()3）Partitioner 分区。

2023-09-10 20:03:17 403 1

原创 Hadoop（MapReduce）笔记o

1）需求过滤输入的 log 日志，包含 atguigu 的网站输出到 e:/atguigu.log，不包含 atguigu 的网站输出到 e:/other.log。（1）输入数据log.txt（2）期望输出数据other.log2）需求分析1、需求：过滤输入的log日志，包含atguigu的网站输出到e:/atguigu.log，不包含atguigu的网站输出到e:/other.log2、输入数据3、输出数据4、自定义一个OutputFormat类。

2023-08-20 23:09:10 72 1

原创 Hadoop(MapReduce)笔记

在企业开发中往往常用的基本序列化类型不能满足所有需求，比如在 Hadoop 框架内部传递一个 bean 对象，那么该对象就需要实现序列化接口。具体实现 bean 对象序列化步骤如下 7 步。（1）必须实现 Writable 接口（2）反序列化时，需要反射调用空参构造函数，所以必须有空参构造super();（3）重写序列化方法@Override（4）重写反序列化方法@Override（5）注意反序列化的顺序和序列化的顺序完全一致。

2023-08-20 22:11:42 81 1

原创 Hadoop(MapReduce)05

MapReduce 是一个的编程框架，是用户开发“基于 Hadoop 的数据分析应用”的核心框架。MapReduce 核心功能是将和整合成一个完整的，并发运行在一个 Hadoop 集群上。

2023-08-13 22:20:51 60 1

原创 Hadoop(HDFS)04

1）编写源代码2）将 hdfs-site.xml 拷贝到项目的 resources 资源目录下3）参数优先级参数优先级排序：（1）客户端代码中设置的值 >（2）ClassPath 下的用户自定义配置文件 >（3）然后是服务器的自定义配置（xxx-site.xml） >（4）服务器的默认配置（xxx-default.xml）

2023-08-13 22:20:38 66 1

原创 Hadoop（HDFS）03

1）HDFS 产生背景随着数据量越来越大，在一个操作系统存不下所有的数据，那么就分配到更多的操作系统管理的磁盘中，但是不方便管理和维护，迫切。HDFS 只是分布式文件管理系统中的一种。2）HDFS 定义，它是一个文件系统，用于存储文件，通过目录树来定位文件；，由很多服务器联合起来实现其功能，集群中的服务器有各自的角色。HDFS 的使用场景：适合一次写入，多次读出的场景。一个文件经过创建、写入和关闭之后就不需要改变。

2023-08-06 22:53:22 59 1

原创 Hadoop运行模式02

1）各个模块分开启动/停止（配置 ssh 是前提）常用（1）整体启动/停止 HDFS（2）整体启动/停止 YARN2）各个服务组件逐一启动/停止（1）分别启动/停止 HDFS 组件（2）启动/停止 YARN3.2.9 编写 Hadoop 集群常用脚本1）Hadoop 集群启停脚本（包含 HDFS，Yarn，Historyserver）：myhadoop.sh输入如下内容。

2023-08-06 22:31:56 57 1

原创 Linux常用命令03

为了保护系统的安全性，Linux系统对不同的用户访问同一文件（包括目录文件）的权限做了不同的规定。[ w ]代表可写(write): 可以修改，但是不代表可以删除该文件，删除一个文件的。（4）采用数字的方式，设置文件所有者、所属组、其他用户都具有可读可写可执行权。（5）修改整个文件夹里面的所有文件的所有者、所属组、其他用户都具有可读可写可。（3）第4-6位确定属组（所有者的同组用户）拥有该文件的权限，—Group。（2）第1-3位确定属主（该文件的所有者）拥有该文件的权限。

2023-07-30 22:38:59 65 1

原创 Hadoop运行模式01

scp 可以实现服务器与服务器之间的数据拷贝。（2）

2023-07-30 22:15:25 59 1

原创 linux常用基本命令课堂笔记02

说明Linux系统是一个多用户多任务的操作系统，任何一个要使用系统资源的用户，都必须首先向系统管理员申请一个账号，然后以这个账号的身份进入系统。Linux的用户需要至少要属于一个组添加用户基本语法useradd[选项] 用户名useradd -g 组名用户名（功能描述：添加新用户到某个组）实际案例添加一个用户特别说明cd 表示change directory，切换目录细节说明当创建用户成功后，会自动的创建和用户同名的家目录也可以通过useradd -d。

2023-07-23 22:20:23 71

原创大数据技术之 Hadoop（入门02

是为“红帽系”的操作系统提供额外的软件包，适用于 RHEL、CentOS 和 Scientific Linux。1）hadoop100 虚拟机配置要求如下（本文 Linux 系统全部以 CentOS-7.5-x86-1804 为例）：如果 Linux 安装的是最小系统版，还需要安装如下工具；（2）配置 Linux 克隆机主机名称映射 hosts 文件，打开**/etc/hosts**：在企业开发时，通常单个服务器的防火墙时关闭的。（2）打开/etc/profile.d/my_env.sh 文件。

2023-07-23 22:04:49 59

原创 linux常用基本命令课堂笔记02

说明Linux系统是一个多用户多任务的操作系统，任何一个要使用系统资源的用户，都必须首先向系统管理员申请一个账号，然后以这个账号的身份进入系统。Linux的用户需要至少要属于一个组添加用户基本语法useradd[选项] 用户名实际案例添加一个用户xm。特别说明cd 表示change directory，切换目录细节说明当创建用户成功后，会自动的创建和用户同名的家目录也可以通过useradd -d指定目录新的用户名，给新创建的用户指定家目录用户指定或修改密码基本语法passwd。

2023-07-23 22:04:21 66

原创 linux常用基本命令课堂笔记01

一部分基础功能的系统命令是直接内嵌在 shell 中的，系统加载启动之后会随着 shell一起加载，常驻系统内存中。，类似于 windows 里的快捷方式，有自己的数据块，主要存放了链接。（功能描述：列表的内容写入文件 a.txt 中（覆盖写））（功能描述：列表的内容追加到文件 aa.txt 的末尾）rmdir:Remove directory 移除目录。（功能描述：查看文件尾部5行内容，5可以是任意行数）（功能描述：查看文件头5行内容，5可以是任意行数）（功能描述：将文件 1 的内容覆盖到文件 2）

2023-07-16 22:12:20 82 1

2201_75649224的博客

原创 Hive学习笔记06

原创 Hive学习笔记05

原创 Hive入门笔记04

原创 Hive入门笔记03

原创 Hive入门学习笔记02

原创 Hive入门学习笔记01

原创 Hadoop（Yarn）笔记07

原创 Hadoop（MapReduce数据清理、压缩）笔记06

原创 Hadoop（MapReduce）笔记o

原创 Hadoop(MapReduce)笔记

原创 Hadoop(MapReduce)05

原创 Hadoop(HDFS)04

原创 Hadoop（HDFS）03

原创 Hadoop运行模式02

原创 Linux常用命令03

原创 Hadoop运行模式01

原创 linux常用基本命令课堂笔记02

原创大数据技术之 Hadoop（入门02

原创 linux常用基本命令课堂笔记02

原创 linux常用基本命令课堂笔记01

原创 Hadoop（入门）课堂笔记01

原创 MySQL课堂笔记02（索引、视图、DBA命令、设计三范式）

原创 MySQL课堂笔记01（约束、存储引擎、事务）

空空如也

空空如也