自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 收藏
  • 关注

原创 查找与排序-插入排序

思考:在把待排序的元素插入已经有序的子序列中时,是不是一定要逐一比较?有没有改进方法?在查找插入位置的时候可以采用折半(二分)搜索的办法。

2024-10-28 00:21:13 491

原创 查找与排序-插入排序

假设n个数据元素关键字存储在静态数组a中,则直接插入排序的基本思想可做如下描述:(1)初始有序子序列由一个元素a[0] 组成;(2)从a[1]开始,对于序列中每个元素a[i],利用顺序查找在有序子序列中找到其合适位置,然后将后面的元素向后移动,并将a[i]插入。(3)重复上述步骤,直到整个序列有序,算法结束。

2024-10-28 00:05:37 393

原创 查找与排序-选择排序(简单选择排序、堆排序)

选择排序也是基于“比较”和“交换”两种操作来实现的排序方法。每一趟排序在待排序序列中选择关键字最小(或最大)的数据元素加入到排好序的序列前(或后),直至所有元素排完为止。

2024-10-21 22:48:57 933

原创 查找与排序-交换排序(冒泡排序、快速排序)

交换排序是基于“比较”和“交换”两种操作来实现的排序方法。

2024-10-20 23:00:39 840

原创 数据仓库技术及应用(练习1)

关键步骤: 运用Shell Sed完成操作转换。,可将匹配的小写字符转换为大写。

2024-10-11 19:52:06 272

原创 数据仓库技术及应用(Hive调优)

HiveSQL是一种声明式语言,用户提交的交互式查询,Hive会将其转换成MR任务。Hive提供EXPLAIN命令显示查询语句的执行计划,通过显示信息可以了解Hive如何将查询转换为MR。

2024-06-10 23:07:03 999 5

原创 数据仓库技术及应用(Hive索引)

在建表时候,通过表参数”orc.bloom.filter.columns”=”pcid”来指定为那些字段建立BloomFilter索引,这样,在生成数据的时候,会在每个stripe中,为该字段建立BloomFilter的数据结构,当查询条件中包含对该字段的=号过滤时候,先从BloomFilter中获取以下是否包含该值,如果不包含,则跳过该stripe。Hive元数据表IDXS包含每个索引创建的实例信息,并且记录了与元数据表TBLS的关联信息。(1)不使用索引时,hive执行流程。

2024-06-10 16:04:40 888 1

原创 数据仓库技术及应用(Hive视图)

是对数据的一个快照,在复杂的查询场景中,物化视图预先计算并保存查询结果,真正查询时可提高效率。物化视图与普通视图的区别在于:物化视图会存储数据,具有表一样的特征;而普通视图不存储数据,是只有表结构的虚拟表。侧视图一般与UDTF结合使用,UDTF为每个输出行生成零个或多个输出行;侧视图会将UDTF应用于基表的每一行,然后将结果输出行对应连接到输入行。

2024-06-10 00:32:18 1096

原创 数据仓库技术及应用(Hive函数)

以一行数据中心的一列或多列数据作为输入参数,返回的结果是一个值的函数。以多行中的零个到多个列的数据作为输入,返回单一值的函数。接受零个或多个输入,产生多列或多行输出。

2024-06-06 17:13:56 972

原创 数据仓库技术及应用(高级操作)

Hive查询即是SELECT语句用于对表中的数据进行查询 按照规定的语法规则从表中选取数据基本语法结构如下1.WHERE 子句WHERE条件必须是布尔表达式,用于过滤结果集。常用条件表达式2.ALL、DISTINCT、LIMIT子句ALL和DISTINCT子句表示是否返回重复行,默认是ALL,返回所有匹配行。 DISTINCT子句可以返回删除结果集中的重复行。 LIMIT子句用于限制SELECT语句返回的行数 ,其后的整型参数表示共返回多少行。3.CT

2024-06-06 15:28:27 1218

原创 数据仓库技术及应用(元数据)

元数据表名(MySQL hive数据库中)说明VERSION存储Hive版本存储与Hive数据库相关信息存储Hive表相关信息存储Hive文件存储相关信息存储分区相关信息COLUMNS_V2存储表对应的字段信息CDS记录Columns_v2中所有的CD_IDDB_PRIVS数据库权限信息表IDXS索引表表字段统计信息表字段授权信息PART_PRIVS分区授权信息进入MYSQL,输入以下命令:注意在hive下退出exit或Ctrl+C。

2024-05-23 16:39:21 375 1

原创 数据仓库技术及应用(内部表与外部表)

内部表(managed table): 未被external修饰的表,也叫管理表。外部表(external table):被external修饰的表。

2024-04-17 09:36:55 485 3

原创 数据仓库技术及应用(库表操作/分区与分桶)

eg.创建电影票信息表 ticket,字段包含电影票编号、影片名称、时间、座位与价格。load命令实现,将数据复制或移动到Hive表对应的位置。insert命令实现,执行MR作业将数据插入Hive表中。(1)常用命令 load、insert、update、delete、merge、explain等。使用import/export实现数据导入\导出。随机抽样基于指定列(使用分桶列更高效)(3)Hive更新、删除、合并数据。(3)Hive DDL其他操作。随机抽样基于整行数据。(4)数据导入\导出。

2024-04-16 23:37:14 501 3

原创 数据仓库技术及应用(Hive 产生背景与架构设计,存储模型与数据类型)

Databases:数据库,在HDFS中为hive.metastore.warehouse.dir目录下的一个文件夹。Tables:表,表由列构成,在表上可以进行过滤、映射、连接和联合操作,在HDFS中为数据库目录下的子目录。Hive表分为内部表和外部表:内部表类似于RDBMS中的表,由Hive管理 外部表指向已经存在HDFS中的数据,外部表的真实数据不被Hive管理。Partitions分区,每个表都可以按指定的键分为多个分区,作用是为了提高查询的效率,在HDFS中是表目录的子目录。

2024-03-11 20:08:25 2171 3

原创 数据仓库技术及应用(Hive 环境配置)

到 \HKEY_CURRENT_USER,再找到Software,里面有一个VMware,Inc. 的文件删除就OK啦!检查之前的VMware是否删除干净,到自己的安装目录进行查看所有关于VMware的文件,然后确保删除正确,完全删除后再进行后续安装。数据仓库概念:一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。当出现虚拟机权限不足,无法访问文件的时候,先退出程序,然后右键点击虚拟机,选择以。清理电脑内从未使用或不再使用的文件或软件和上网的浏览记录,同时可以避免误删文件。

2024-03-03 16:25:16 1712 1

原创 数据仓库技术及应用(数据仓库概述)

数据仓库是一种面向商务智能 (BI) 活动(尤其是分析)的数据管理系统,它仅适用于查询和分析,通常涉及大量的历史数据。在实际应用中,数据仓库中的数据一般来自应用日志文件和事务应用等广泛来源。数据仓库能够集中、整合多个来源的大量数据,借助数据仓库的分析功能,企业可从数据中获得宝贵的业务洞察,改善决策。同时,随着时间推移,它还会建立一个对于数据科学家和业务分析人员极具价值的历史记录。得益于这些强大的功能,数据仓库可为企业提供一个“单一信息源”。

2024-03-01 20:03:44 1337

原创 百亿富翁Python

好奇的小明想知道对于每栋楼,左边第一个比它高的楼房是哪个,右边第一个比它高的楼房是哪个(若不存在则输出―1)。第⒉行输N个整数(相邻整数用空格隔开),分别为h1,h2,...,hN,表示楼房的高度。使用单调栈的思想,通过维护一个栈来记录每个楼的索引,确保栈内的楼高度是单调递减的。已知这排楼房—共N栋,编号分别为1~N,第i栋的高度为hi。第一行输出N个整数,表示每栋楼左边第一栋比自己高的楼的编号。第二行输出N个整数,表示每栋楼右边第一栋比自己高的楼的编号。第1行输入一个整数N,表示楼房的数量。

2024-02-29 17:06:04 302 1

原创 蓝桥国王2

总体来说,代码采用了 Dijkstra 算法来计算最短路径,使用堆来维护当前可能的最短路径,并通过遍历邻居节点来不断更新堆中的路径信息。最终,通过检查找到的路径列表,返回第K短路径的长度或者 -1(如果第K短路径不存在)。图的节点是建筑,每个节点的邻居是与其相连的建筑以及对应的道路权重。1 ≤s,T≤N≤10^3,1 ≤ m ≤10^5,1 ≤ui, vi ≤N,0≤wi≤ 10^3,保证S≠ T。输出占一行,包含一个整数,表示S→T的第K短路的长度,如果第K短路不存在,则输出-1。

2024-01-29 23:55:12 535 2

原创 蓝桥王国python

国王想让小明回答从皇宫到每个建筑的最短路径是多少,但紧张的小明此时已经无法思考,请你编写程序帮助小明回答国王的考核。输出仅一行,共N个数,分别表示从皇宫到编号为1~N建筑的最短距离,两两之间用空格隔开。输出结果:输出起点到自身的最短距离为 0,然后遍历从起点到其他节点的最短距离,如果某个节点不可达,则输出 -1。,用于存储从起点到每个节点的最短距离,初始时将每个节点的距离设置为无穷大。将起点加入堆中:将起点 1 加入堆中,初始距离为 0,并将起点的最短距离设置为 0。,分别表示节点的数量和边的数量。

2024-01-27 17:12:28 544 4

数据仓库技术及应用(练习1)

数据仓库技术及应用(练习1)

2024-06-12

数据仓库技术及应用(练习1)

数据仓库技术及应用(练习1)

2024-06-12

数据仓库技术及应用(练习1)

数据仓库技术及应用(练习1)

2024-06-12

数据仓库技术及应用(练习1)

数据仓库技术及应用(练习1)

2024-06-12

数据仓库技术及应用(练习1)

数据仓库技术及应用(练习1)

2024-06-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除