言珮-CSDN博客

原创嗯嗯嗷呜打卡

这段代码是用来创建一个名为"yzk"的数据库表，用于存储消息相关的数据。表中包含了多个字段，如消息发送时间、发送人账号、发送人名字、发送人性别、发送人IP地址等等。每个字段都有注释说明其含义。在表的创建之后，代码中还包含了一行指令，用于指定数据文件的格式和存储方式。最后一行代码则是用来将数据文件"/chat_data-10W.csv"中的内容加载到刚创建的"yzk"表中。整体来看，这段代码的功能是创建一个数据库表，定义了该表的字段结构，然后将指定的数据文件中的内容导入到这个表中进行存储和管理。

2024-04-25 22:25:27 204

原创 HIVE?

CLI（Command Line Interface）：Hive的命令行接口，允许用户通过命令行窗口执行Hive查询和操JDBC/ODBC：Hive提供了Java数据库连接（JDBC）和开放数据库连接（ODBC）接口，使得用户可以通过各种编程语言和工具连接并操作Hive数据库。WEB GUI：Hive提供了一个Web界面，用户可以通过浏览器访问并执行Hive查询和操作。Metastore：Hive元数据存储，用于存储表结构、分区信息、表位置等元数据信息，以便Hive可以对数据进行查询和操作。

2024-04-24 22:41:50 629 3

原创大数据实训第二天

Hive的架构是一个典型的客户端-服务器架构，用户通过Hive客户端提交查询请求，Hive Driver解析查询并生成相应的MapReduce任务，然后将任务提交给Hadoop集群执行，最终将结果返回给用户。在读取大文件的过程中，首先获取文件的数据块信息，然后按顺序从对应的DataNode读取数据块，并将数据块写入输出流。首先，将大文件分割为128MB大小的数据块，并使用缓冲区读取数据块的内容。在读取小文件的过程中，首先获取文件的数据块信息，然后从对应的DataNode读取数据块，并将数据块写入输出流。

2024-04-23 21:45:11 466 2

原创 Hadoopd第一天心得

MapReduce（分布式计算框架）：MapReduce是Hadoop的分布式计算框架，用于处理大规模数据的计算任务。MapReduce将计算任务分解成Map和Reduce两个阶段，Map阶段负责数据的处理和转换，Reduce阶段负责数据的汇总和计算。HDFS将大文件切分成多个数据块（block），并将这些数据块分布存储在集群的不同节点上，实现数据的分布式存储和高可靠性。Hadoop是一个用于处理大规模数据的开源框架，主要包括HDFS（分布式文件系统）和MapReduce（分布式计算框架）两部分。

2024-04-22 21:05:22 367

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 嗯嗯 嗷呜 打卡

原创 HIVE?

原创 大数据实训第二天

原创 Hadoopd第一天心得

空空如也

空空如也

原创嗯嗯嗷呜打卡

原创大数据实训第二天