- 博客(4)
- 收藏
- 关注
原创 idea与数据挖掘
创建表date,设计20个元组,将数据使用LOAD DATA INPATH '/user/hive/warehouse/chat_data-10W.csv' INTO TABLE data。完成上述步骤后,你就可以在 IntelliJ IDEA 中连接和管理 Hive 数据库了。:输入 Hive 的连接信息,如主机名、端口号、用户名和密码。:点击 Test Connection 按钮,确保连接正常。使用idea的数据库功能成功连接上hive。使用sql命令查询数据,进行数据挖掘。
2024-04-26 08:26:28 241 4
原创 hive与idea的连接
Hive 是一个建立在 Hadoop 之上的数据仓库系统,提供了类似于 SQL 的查询语言 HiveQL,使用户能够方便地在 Hadoop 分布式存储中执行查询和分析。它将结构化数据映射到 Hadoop 的分布式文件系统(HDFS)中,并利用 MapReduce 处理数据。Hive 的主要目标是提供高效的数据查询和分析,使非技术用户也能轻松地利用 Hadoop 处理大规模数据。二、使用idea连接hive数据库获取 Hive JDBC 驱动程序:首先,你需要下载并获取 Hive JDBC 驱动程序。
2024-04-25 00:23:05 1186 2
原创 Hadoop集群的搭建使用与HDFS集群的架构介绍
HDFS 架构主要由 NameNode 和 DataNode 两部分组成:NameNode:NameNode 是 HDFS 的主节点,负责管理文件系统的命名空间,维护文件系统的元数据信息,包括文件目录结构、文件属性以及文件与数据块之间的映射关系。NameNode 还负责协调客户端的读写请求,并控制数据块的复制和移动。DataNode:DataNode 是 HDFS 的数据节点,负责存储实际的数据块。
2024-04-23 20:19:48 859
原创 Hadoop入门实习
Hadoop是一个开源的分布式计算框架,用于处理大规模数据的存储和处理。它主要包括两个核心组件:Hadoop分布式文件系统(HDFS)和MapReduce。
2024-04-22 22:18:08 672 2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人