- 博客(23)
- 收藏
- 关注
原创 Hive学习笔记06
若用户手动创建/删除分区路径,Hive都是感知不到的,这样就会导致Hive的元数据和HDFS的分区路径不一致。再比如,若分区表为外部表,用户执行drop partition命令后,分区元数据会被删除,而HDFS的分区路径不会被删除,同样会导致Hive的元数据和HDFS的分区路径不一致。对于一张表或者分区,Hive 可以进一步组织成桶,也就是更为细粒度的数据范围划分,分区针对的是数据的存储路径,分桶针对的是数据文件。在查询时通过where子句中的表达式选择查询所需要的分区,这样的查询效率会提高很多。
2023-10-08 21:02:02 96
原创 Hive学习笔记05
('宋青书','男','1981/03/15','2022/04/09','研发',18000,1000,array('王五','赵六'),map('宋小青',7,'宋小书',5)),('黄蓉','女','1982/12/13','2022/06/11','行政',12000,null,array('东邪','西毒'),map('郭芙',5,'郭襄',4)),--2/2 每一行数据中的friends集合里的个数。('12', '1003', '小辉', '2022-04-11', '75'),
2023-10-08 20:40:42 136
原创 Hive入门笔记03
B的表达式说明如下:‘x%’表示A必须以字母‘x’开头,‘%x’表示A必须以字母‘x’结尾,而‘%x%’表示A包含有字母‘x’,可以位于开头,结尾或者字符串中间。如果A的值大于等于B而且小于或等于C,则结果为true,反之为false。,设计表字段时,表的字段与JSON字符串中的一级字段保持一致,对于具有嵌套结构的JSON字符串,考虑使用合适复杂数据类型保存其内容。该语法允许用户利用select查询语句返回的结果,直接建表,表的结构和查询语句的结构保持一致,且保证包含select查询语句放回的内容。
2023-09-24 20:46:03 178 1
原创 Hive入门学习笔记02
1)语法2)案例(1)创建一个数据库,不指定路径注:若不指定路径,其默认路径为(2)创建一个数据库,指定路径(3)创建一个数据库,带有dbproperties。
2023-09-17 21:34:15 110 1
原创 Hive入门学习笔记01
接口,为用户提供远程访问Hive数据的功能,例如用户期望在个人电脑中访问远程服务中的Hive数据,就需要用到Hiveserver2。4)首先退出hive客户端。元数据包括:数据库(默认是default)、表名、表的拥有者、列/分区字段、表的类型(是否是外部表)、表的数据所在目录等。3)在Xshell窗口中开启另一个窗口开启Hive,在/tmp/atguigu目录下监控hive.log文件。3)在Xshell窗口中开启另一个窗口开启Hive(两个窗口都可以操作Hive,没有出现异常)
2023-09-17 20:57:44 127 1
原创 Hadoop(MapReduce数据清理、压缩)笔记06
1)输入数据接口:InputFormat(1)默认使用的实现类是:TextInputFormat(2)TextInputFormat 的功能逻辑是:一次读一行文本,然后将该行的起始偏移量作为key,行内容作为 value 返回。(3)CombineTextInputFormat 可以把多个小文件合并成一个切片处理,提高处理效率。2)逻辑处理接口:Mapper用户根据业务需求实现其中三个方法:map() setup() cleanup ()3)Partitioner 分区。
2023-09-10 20:03:17 403 1
原创 Hadoop(MapReduce)笔记o
1)需求过滤输入的 log 日志,包含 atguigu 的网站输出到 e:/atguigu.log,不包含 atguigu 的网站输出到 e:/other.log。(1)输入数据log.txt(2)期望输出数据other.log2)需求分析1、需求:过滤输入的log日志,包含atguigu的网站输出到e:/atguigu.log,不包含atguigu的网站输出到e:/other.log2、输入数据3、输出数据4、自定义一个OutputFormat类。
2023-08-20 23:09:10 72 1
原创 Hadoop(MapReduce)笔记
在企业开发中往往常用的基本序列化类型不能满足所有需求,比如在 Hadoop 框架内部传递一个 bean 对象,那么该对象就需要实现序列化接口。具体实现 bean 对象序列化步骤如下 7 步。(1)必须实现 Writable 接口(2)反序列化时,需要反射调用空参构造函数,所以必须有空参构造super();(3)重写序列化方法@Override(4)重写反序列化方法@Override(5)注意反序列化的顺序和序列化的顺序完全一致。
2023-08-20 22:11:42 81 1
原创 Hadoop(MapReduce)05
MapReduce 是一个的编程框架,是用户开发“基于 Hadoop 的数据分析应用”的核心框架。MapReduce 核心功能是将和整合成一个完整的,并发运行在一个 Hadoop 集群上。
2023-08-13 22:20:51 60 1
原创 Hadoop(HDFS)04
1)编写源代码2)将 hdfs-site.xml 拷贝到项目的 resources 资源目录下3)参数优先级参数优先级排序:(1)客户端代码中设置的值 >(2)ClassPath 下的用户自定义配置文件 >(3)然后是服务器的自定义配置(xxx-site.xml) >(4)服务器的默认配置(xxx-default.xml)
2023-08-13 22:20:38 66 1
原创 Hadoop(HDFS)03
1)HDFS 产生背景随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切。HDFS 只是分布式文件管理系统中的一种。2)HDFS 定义,它是一个文件系统,用于存储文件,通过目录树来定位文件;,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。HDFS 的使用场景:适合一次写入,多次读出的场景。一个文件经过创建、写入和关闭之后就不需要改变。
2023-08-06 22:53:22 59 1
原创 Hadoop运行模式02
1)各个模块分开启动/停止(配置 ssh 是前提)常用(1)整体启动/停止 HDFS(2)整体启动/停止 YARN2)各个服务组件逐一启动/停止(1)分别启动/停止 HDFS 组件(2)启动/停止 YARN3.2.9 编写 Hadoop 集群常用脚本1)Hadoop 集群启停脚本(包含 HDFS,Yarn,Historyserver):myhadoop.sh输入如下内容。
2023-08-06 22:31:56 57 1
原创 Linux常用命令03
为了保护系统的安全性,Linux系统对不同的用户访问同一文件(包括目录文件)的权限做了不同的规定。[ w ]代表可写(write): 可以修改,但是不代表可以删除该文件,删除一个文件的。(4)采用数字的方式,设置文件所有者、所属组、其他用户都具有可读可写可执行权。(5)修改整个文件夹里面的所有文件的所有者、所属组、其他用户都具有可读可写可。(3)第4-6位确定属组(所有者的同组用户)拥有该文件的权限,—Group。(2)第1-3位确定属主(该文件的所有者)拥有该文件的权限。
2023-07-30 22:38:59 65 1
原创 linux常用基本命令课堂笔记02
说明Linux系统是一个多用户多任务的操作系统,任何一个要使用系统资源的用户,都必须首先向系统管理员申请一个账号,然后以这个账号的身份进入系统。Linux的用户需要至少要属于一个组添加用户基本语法useradd[选项] 用户名useradd -g 组名 用户名(功能描述:添加新用户到某个组)实际案例添加一个用户特别说明cd 表示change directory,切换目录细节说明当创建用户成功后,会自动的创建和用户同名的家目录也可以通过useradd -d。
2023-07-23 22:20:23 71
原创 大数据技术之 Hadoop(入门02
是为“红帽系”的操作系统提供额外的软件包,适用于 RHEL、CentOS 和 Scientific Linux。1)hadoop100 虚拟机配置要求如下(本文 Linux 系统全部以 CentOS-7.5-x86-1804 为例):如果 Linux 安装的是最小系统版,还需要安装如下工具;(2)配置 Linux 克隆机主机名称映射 hosts 文件,打开**/etc/hosts**:在企业开发时,通常单个服务器的防火墙时关闭的。(2)打开/etc/profile.d/my_env.sh 文件。
2023-07-23 22:04:49 59
原创 linux常用基本命令课堂笔记02
说明Linux系统是一个多用户多任务的操作系统,任何一个要使用系统资源的用户,都必须首先向系统管理员申请一个账号,然后以这个账号的身份进入系统。Linux的用户需要至少要属于一个组添加用户基本语法useradd[选项] 用户名实际案例添加一个用户xm。特别说明cd 表示change directory,切换目录细节说明当创建用户成功后,会自动的创建和用户同名的家目录也可以通过useradd -d指定目录新的用户名,给新创建的用户指定家目录用户指定或修改密码基本语法passwd。
2023-07-23 22:04:21 66
原创 linux常用基本命令课堂笔记01
一部分基础功能的系统命令是直接内嵌在 shell 中的,系统加载启动之后会随着 shell一起加载,常驻系统内存中。,类似于 windows 里的快捷方式,有自己的数据块,主要存放了链接。(功能描述:列表的内容写入文件 a.txt 中(覆盖写))(功能描述:列表的内容追加到文件 aa.txt 的末尾)rmdir:Remove directory 移除目录。(功能描述:查看文件尾部5行内容,5可以是任意行数)(功能描述:查看文件头5行内容,5可以是任意行数)(功能描述:将文件 1 的内容覆盖到文件 2)
2023-07-16 22:12:20 82 1
原创 Hadoop(入门)课堂笔记01
大数据主要解决,海量数据的采集、存储和分析计算问题。1)Hadoop是一个由Apache基金会(非盈利性的代码开发组织)所开发的分布式系统基础架构。分布式系统是什么?多台服务器共同完成某一项任务,比如一台电脑无法完成需要多台电脑。2)主要解决,海量数据的存储和海量数据的分析计算问题。(记住这句话)3)广义上来说,Hadoop通常是指一个更广泛的概念——Hadoop生态圈。hadoop生态圈有什么?
2023-07-16 21:06:35 318 1
原创 MySQL课堂笔记02(索引、视图、DBA命令、设计三范式)
站在不同的角度去看到数据。(同一张表的数据,通过不同的角度去看待)。设计表的依据。按照这个三范式设计的表不会出现数据冗余。
2023-07-09 11:19:15 93 1
原创 MySQL课堂笔记01(约束、存储引擎、事务)
存储引擎这个名字只有在mysql中存在。(Oracle中有对应的机制,但是不叫做存储引擎。Oracle中没有特殊的名字,就是“表的存储方式”)mysql支持很多存储引擎,每一个存储引擎都对应了一种不同的存储方式。每一个存储引擎都有自己的优缺点,需要在合适的时机选择合适的存储引擎。一个事务是一个完整的业务逻辑单元,不可再分。比如:银行账户转账,从A账户向B账户转账10000.需要执行两条update语句:以上两条DML语句必须同时成功,或者同时失败,不允许出现一条成功,一条失败。
2023-07-09 11:11:01 151 2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人