淈泥扬波，餔糟歠醨-CSDN博客

原创 idea与数据挖掘

创建表date,设计20个元组，将数据使用LOAD DATA INPATH '/user/hive/warehouse/chat_data-10W.csv' INTO TABLE data。完成上述步骤后，你就可以在 IntelliJ IDEA 中连接和管理 Hive 数据库了。：输入 Hive 的连接信息，如主机名、端口号、用户名和密码。：点击 Test Connection 按钮，确保连接正常。使用idea的数据库功能成功连接上hive。使用sql命令查询数据，进行数据挖掘。

2024-04-26 08:26:28 241 4

原创 hive与idea的连接

Hive 是一个建立在 Hadoop 之上的数据仓库系统，提供了类似于 SQL 的查询语言 HiveQL，使用户能够方便地在 Hadoop 分布式存储中执行查询和分析。它将结构化数据映射到 Hadoop 的分布式文件系统（HDFS）中，并利用 MapReduce 处理数据。Hive 的主要目标是提供高效的数据查询和分析，使非技术用户也能轻松地利用 Hadoop 处理大规模数据。二、使用idea连接hive数据库获取 Hive JDBC 驱动程序：首先，你需要下载并获取 Hive JDBC 驱动程序。

2024-04-25 00:23:05 1186 2

原创 Hadoop集群的搭建使用与HDFS集群的架构介绍

HDFS 架构主要由 NameNode 和 DataNode 两部分组成：NameNode：NameNode 是 HDFS 的主节点，负责管理文件系统的命名空间，维护文件系统的元数据信息，包括文件目录结构、文件属性以及文件与数据块之间的映射关系。NameNode 还负责协调客户端的读写请求，并控制数据块的复制和移动。DataNode：DataNode 是 HDFS 的数据节点，负责存储实际的数据块。

2024-04-23 20:19:48 859

原创 Hadoop入门实习

Hadoop是一个开源的分布式计算框架，用于处理大规模数据的存储和处理。它主要包括两个核心组件：Hadoop分布式文件系统（HDFS）和MapReduce。

2024-04-22 22:18:08 672 2

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人