- 博客(4)
- 收藏
- 关注
原创 用SQL语句创建表
需求4:将ETL以后的结果保存到一张新的Hive表中。需求3:从GPS的经纬度中提取经度和维度。需求1:对字段为空的不合法数据进行过滤。需求2:通过时间字段构建天和小时字段。• Substr函数。• Where过滤。• Split函数。--如果数据库已存在就删除。
2024-04-25 20:01:55 140 2
原创 Apache Hive 使用语法与概念原理
叫联机事务处理OLTP(On-Line Transaction Processing),也可以称面向用户交易的处理系统,它是针对具体业务在数据库联机的日常操作,通常进行增删改查操作。没有专门的临时数据库(ODS),这意味着数据会立即加载到单一的集中存储库中,数据在数据仓库系统中直接进行转换,然后进行分析。数据库设计是尽量避免冗余,一般针对某一业务应用进行设计,比如一张简单的User表,记录用户名、密码等简单数据即可,符合业务应用,但是不符合分析。删除内部表:直接删除元数据(metadata)及存储数据。
2024-04-24 21:10:20 607
原创 集群使用与分布式SQL计算
Metastore:即元数据存储服务,作用是:客户端连接metastore服务,metastore再去连接MySQL等数据库来存取元数据。有了metastore服务,就可以有多个客户端同时连接,而且这些客户端不需要知道MySQL等数据库的用户和密码,只需要连接metastore服务即可。作用:完成HQL查询语句从词法分析,语法分析,编译,优化以及查询计划的生成。安装好hadoop环境之后,可以执行hdfs相关的shell命令对hdfs文件系统进行操作,比如文件的创建,删除,修改文件权限等。
2024-04-23 20:54:17 408 1
原创 hadoop入门
HDFS集群是一个分布式存储系统,它当中的主角色叫做NameNode,简称NN,从角色叫做DataNode,简称DN,主角色辅助角色叫做SecondaryNameNode,简称SNN。YARN集群主要负责资源管理和任务调度,它当中的主角色叫做ResourceManager,简称RM,从角色叫做NodeManager,简称NM。scalability:扩容能力强:Hadoop是在可用的计算机集群间分配数据并完成计算任务的,这些集群可方便灵活的方式扩展到数以千计的节点。两个集群都是标准的主从架构集群。
2024-04-22 21:06:17 426 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人