- 博客(4)
- 收藏
- 关注
原创 PyCharm,Hive数据的导入与可视化
2)在export文件下创建data用于存放数据。、统计每小时消息量、发送和接收用户数。4)在PyCharm中进行数据的导入。、统计发送人的设备操作系统分布情况。、统计发送人的手机型号分布情况。、统计发送人的网络类型分布情况。、统计今日发送和接收用户数。1)启动集群(具体根自身)、统计发送消息各地区数据量。3)将数据复制到data。、统计今日发送消息最多的。
2024-04-25 21:33:58
285
原创 Hadoop集群的使用与HDFS文件系统,Hive,MySQL与Apache Hive
4、Apache Hive是一款分布式SQL计算的工具,其主要功是:将SQL语句 翻译成MapReduce程序运行,可以用IntelliJ IDEA,PyCharm等进行数据库的编写与导入更加简洁。安装好hadoop环境之后,可以执行hdfs相关的shel命令对ndfs文件系统进行操作,比如文件的创建、删除、修改文件权限等。对HDFS的操作命令类似于Linux的shell对文件的操作,如Is、mkdir、rm等。NameNode:集群当中的主节点,主要用于管理集群当中的各种数据。
2024-04-23 22:05:48
654
原创 Hadoop入门
3)广义上来说,Hadoop通常是指一个更广泛的概念——Hadoop生态圈。1)Hadoop是一个由Apache基金会所开发的分布式系统基础架构。2)主要解决,海量数据的存储和海量数据的分析计算问题。MapReduce计算需要的数据和产生的结果需要HDFS来进行存储。:集群当中的主节点,主要用于管理集群当中的各种数据。集群当中的从节点,主要用于存储集群当中的各种数据。接收用户的计算请求任务, 并负责集群的资源分配。MapReduce的运行需要由Yarn。当中元数据信息的辅助管理。负责执行主节点分配的任务。
2024-04-22 22:25:08
353
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人