大数据知识点汇总
栗子呀!
这个作者很懒,什么都没留下…
展开
-
Hive SQL开窗函数详解
Hive 开窗函数group by 是分组函数,一组出来一个数据over() 开窗,针对每一条数据,都有一个独立的组mk 3jk 3mk 3select orderdate,cost,sum(cost) over(order by orderdate)over里面的函数 是对窗口大小的限制注意:针对每一条数据,开一个独立的窗口10 10 (通过order by 没有比它小的所以返回) 1015 这里有比15小的,所以窗口大小+1 25需求:查询顾客的购买明细,及原创 2021-01-31 19:05:21 · 937 阅读 · 0 评论 -
启动&关闭Hadoop&Spark历史服务
/usr/local/src/hadoop-2.6.5/etc/hadoop目录下启动hadoop历史服务mr-jobhistory-daemon.sh start historyserver关闭hadoop历史服务mr-jobhistory-daemon.sh stop historyserver/usr/local/src/spark-2.4.4-bin-hadoop2.6目录下启动Spark历史服务./sbin/start-history-server.sh关闭Spark历史服务原创 2021-01-26 19:44:28 · 987 阅读 · 0 评论 -
Hive对比传统数据库区别
Hive对比传统数据库①Hive和关系数据库存储文件系统不同,Hive使用的是hadoop的HDFS(hadoop的分布式文件系统),关系数据库则是服务器本地的文件系统;②Hive使用的计算模型是MapReduce,而关系数据库则是自己设计的计算模型③关系数据库都是为了实时查询的业务进行设计的,而Hive则是为了海量数据做数据挖掘设计的,实时性很差。④Hive很容易扩展自己的存储能力和计算能力,这个是继承hadoop的,而关系数据库在这个方面要比Hive差很多。...原创 2021-01-20 11:33:54 · 944 阅读 · 0 评论 -
hive常见的建表方式有哪些?各自的使用场景是?
hive常见的建表方式有哪些?各自的使用场景是?hive常见的建表方式与应用场景hive常见的建表方式与应用场景1、直接建表法create table tableName(字段名称 字段类型 [comment '中文注释说明'],字段名称 字段类型, ....)row format delimited fields terminated by 'char分割符即列分割符'lines terminated by '行分割符';注意:如果是外部表加:external应用场景:直接进行 字段类型原创 2021-01-17 23:15:01 · 485 阅读 · 0 评论 -
hive体系架构以及各个组件的作用
1、体系架构:2、三大组件:1、用户接口(Client):包括CLI、JDBC/ODBC、WebGUI①CLI(command line interface)为shell命令行 ,进行交互执行SQL;直接与Driver进行交互。CLI启动的时候,会同时启动一个Hive副本②JDBC/ODBC 驱动是Hive 的JAVA实现,作为JAVA的API;JDBC是通过Thift Server来接入,然后发送给Driver③WebGUI是通过浏览器访问Hive④HiveServer2基于Thift,允原创 2021-01-17 22:52:22 · 7257 阅读 · 2 评论 -
hive元数据为什么使用Mysql?不使用默认的Derby
hive元数据为什么使用Mysql?不使用默认的Derby?在安装完成Hive之后默认是以Derby数据库作为元数据库,存储Hive有哪些数据库,以及每个数据库中有哪些表,但是在实际生产过程中,并不是以derby作为Hive的元数据库,都是以Mysql去替换derby不选择Derby数据库来存储元数据的原因:1.Derby数据库,只能允许一个会话连接,只适合简单的测试。不支持并发,也就是只支持单线程操作,当一个用户在Hive进行操作是,其他用户则无法操作,导致整体效率性能较低。2. Derby还有一原创 2021-01-17 21:50:39 · 1401 阅读 · 0 评论 -
Hive常见的存储格式的区别与应用场景
一、文件存储格式在HIVE中,常见的文件存储格式有TextFileParquetORCSequencefileRCAVRO注意:TextFile、Sequencefile 基于行存储,ORC、Patquet基于列存储行存储和列存储上图中左边为行存储,右边为列存储行存储的特点:查询满足条件的一整行数据时,列式存储则需要去每个聚集的字段找到对应的每列的值,行存储只需要找到其中一个值,其余的值都在相邻地方,所以此时行存储查询数据更快。列式存储的特点:查询满足条件的一整列数据的时候,行存储原创 2021-01-17 21:22:13 · 2875 阅读 · 1 评论