查找与排序-插入排序 假设n个数据元素关键字存储在静态数组a中,则直接插入排序的基本思想可做如下描述:(1)初始有序子序列由一个元素a[0] 组成;(2)从a[1]开始,对于序列中每个元素a[i],利用顺序查找在有序子序列中找到其合适位置,然后将后面的元素向后移动,并将a[i]插入。(3)重复上述步骤,直到整个序列有序,算法结束。
查找与排序-选择排序(简单选择排序、堆排序) 选择排序也是基于“比较”和“交换”两种操作来实现的排序方法。每一趟排序在待排序序列中选择关键字最小(或最大)的数据元素加入到排好序的序列前(或后),直至所有元素排完为止。
数据仓库技术及应用(Hive调优) HiveSQL是一种声明式语言,用户提交的交互式查询,Hive会将其转换成MR任务。Hive提供EXPLAIN命令显示查询语句的执行计划,通过显示信息可以了解Hive如何将查询转换为MR。
数据仓库技术及应用(Hive索引) 在建表时候,通过表参数”orc.bloom.filter.columns”=”pcid”来指定为那些字段建立BloomFilter索引,这样,在生成数据的时候,会在每个stripe中,为该字段建立BloomFilter的数据结构,当查询条件中包含对该字段的=号过滤时候,先从BloomFilter中获取以下是否包含该值,如果不包含,则跳过该stripe。Hive元数据表IDXS包含每个索引创建的实例信息,并且记录了与元数据表TBLS的关联信息。(1)不使用索引时,hive执行流程。
数据仓库技术及应用(Hive视图) 是对数据的一个快照,在复杂的查询场景中,物化视图预先计算并保存查询结果,真正查询时可提高效率。物化视图与普通视图的区别在于:物化视图会存储数据,具有表一样的特征;而普通视图不存储数据,是只有表结构的虚拟表。侧视图一般与UDTF结合使用,UDTF为每个输出行生成零个或多个输出行;侧视图会将UDTF应用于基表的每一行,然后将结果输出行对应连接到输入行。
数据仓库技术及应用(Hive函数) 以一行数据中心的一列或多列数据作为输入参数,返回的结果是一个值的函数。以多行中的零个到多个列的数据作为输入,返回单一值的函数。接受零个或多个输入,产生多列或多行输出。
数据仓库技术及应用(高级操作) Hive查询即是SELECT语句用于对表中的数据进行查询 按照规定的语法规则从表中选取数据基本语法结构如下1.WHERE 子句WHERE条件必须是布尔表达式,用于过滤结果集。常用条件表达式2.ALL、DISTINCT、LIMIT子句ALL和DISTINCT子句表示是否返回重复行,默认是ALL,返回所有匹配行。 DISTINCT子句可以返回删除结果集中的重复行。 LIMIT子句用于限制SELECT语句返回的行数 ,其后的整型参数表示共返回多少行。3.CT
数据仓库技术及应用(元数据) 元数据表名(MySQL hive数据库中)说明VERSION存储Hive版本存储与Hive数据库相关信息存储Hive表相关信息存储Hive文件存储相关信息存储分区相关信息COLUMNS_V2存储表对应的字段信息CDS记录Columns_v2中所有的CD_IDDB_PRIVS数据库权限信息表IDXS索引表表字段统计信息表字段授权信息PART_PRIVS分区授权信息进入MYSQL,输入以下命令:注意在hive下退出exit或Ctrl+C。
数据仓库技术及应用(库表操作/分区与分桶) eg.创建电影票信息表 ticket,字段包含电影票编号、影片名称、时间、座位与价格。load命令实现,将数据复制或移动到Hive表对应的位置。insert命令实现,执行MR作业将数据插入Hive表中。(1)常用命令 load、insert、update、delete、merge、explain等。使用import/export实现数据导入\导出。随机抽样基于指定列(使用分桶列更高效)(3)Hive更新、删除、合并数据。(3)Hive DDL其他操作。随机抽样基于整行数据。(4)数据导入\导出。
数据仓库技术及应用(Hive 产生背景与架构设计,存储模型与数据类型) Databases:数据库,在HDFS中为hive.metastore.warehouse.dir目录下的一个文件夹。Tables:表,表由列构成,在表上可以进行过滤、映射、连接和联合操作,在HDFS中为数据库目录下的子目录。Hive表分为内部表和外部表:内部表类似于RDBMS中的表,由Hive管理 外部表指向已经存在HDFS中的数据,外部表的真实数据不被Hive管理。Partitions分区,每个表都可以按指定的键分为多个分区,作用是为了提高查询的效率,在HDFS中是表目录的子目录。
数据仓库技术及应用(Hive 环境配置) 到 \HKEY_CURRENT_USER,再找到Software,里面有一个VMware,Inc. 的文件删除就OK啦!检查之前的VMware是否删除干净,到自己的安装目录进行查看所有关于VMware的文件,然后确保删除正确,完全删除后再进行后续安装。数据仓库概念:一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。当出现虚拟机权限不足,无法访问文件的时候,先退出程序,然后右键点击虚拟机,选择以。清理电脑内从未使用或不再使用的文件或软件和上网的浏览记录,同时可以避免误删文件。