- 博客(4)
- 收藏
- 关注
原创 实习日志Day4
需求4:将ETL以后的结果保存到一张新的Hive表中。需求3:从GPS的经纬度中提取经度和维度。需求1:对字段为空的不合法数据进行过滤。需求2:通过时间字段构建天和小时字段。• Substr函数。
2024-04-25 22:21:29 579 3
原创 实习日志Day3
1.创建库的语法为2.删除库的语法为3.数据库和HDFS的关系•Hive的库在HDFS上就是一个以.db结尾的目录•默认存储在:/user/hive/warehouse内•可以通过LOCATION关键字在创建的时候指定存储目录。
2024-04-24 19:29:23 659 2
原创 实习日志Day2
元数据包含:用Hive创建的database、table、表的字段等元信息。元数据存储:存在关系型数据库中,如:hive内置的Derby数据库或者第三方MySQL数据库等Metastore:即元数据存储服务,作用是:客户端连接metastore服务,metastore再去连接MySOL等数据库来存取元数据有了metastore服务,就可以有多个客户端同时连接,而且这些客户端不需要知道MySQL等数据库的用户名和密码,只需要连接metastore 服务即可。HDFS采用Master/Slave架构.
2024-04-23 17:09:55 475 1
原创 实习日记day1
集群是指一组独立的计算机系统构成的一多处理器系统,它们之间通过网络实现进程间的通信,让若干台计算机联合起来工作,可以是并行的,也可以是做备份。接下来我开始学习 Hadoop 框架概论。Hadoop 的功能组件括 HDFS 组件, MapReduce 组件, YARN 组件,所以,我们会说 Hadoop 是一个集合了有储,计算资源调度为一体的大数据分布式框架。在学习过程中,遇到了一些困难,尤其是在理解 MapReduce 的模型时,不过,在不断的深入学习中已经得到了解决,希望在不断的学习中,掌握这门课程。
2024-04-22 19:37:21 274
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人