- 博客(4)
- 收藏
- 关注
原创 嗯嗯 嗷呜 打卡
这段代码是用来创建一个名为"yzk"的数据库表,用于存储消息相关的数据。表中包含了多个字段,如消息发送时间、发送人账号、发送人名字、发送人性别、发送人IP地址等等。每个字段都有注释说明其含义。在表的创建之后,代码中还包含了一行指令,用于指定数据文件的格式和存储方式。最后一行代码则是用来将数据文件"/chat_data-10W.csv"中的内容加载到刚创建的"yzk"表中。整体来看,这段代码的功能是创建一个数据库表,定义了该表的字段结构,然后将指定的数据文件中的内容导入到这个表中进行存储和管理。
2024-04-25 22:25:27
204
原创 HIVE?
CLI(Command Line Interface):Hive的命令行接口,允许用户通过命令行窗口执行Hive查询和操JDBC/ODBC:Hive提供了Java数据库连接(JDBC)和开放数据库连接(ODBC)接口,使得用户可以通过各种编程语言和工具连接并操作Hive数据库。WEB GUI:Hive提供了一个Web界面,用户可以通过浏览器访问并执行Hive查询和操作。Metastore:Hive元数据存储,用于存储表结构、分区信息、表位置等元数据信息,以便Hive可以对数据进行查询和操作。
2024-04-24 22:41:50
629
3
原创 大数据实训第二天
Hive的架构是一个典型的客户端-服务器架构,用户通过Hive客户端提交查询请求,Hive Driver解析查询并生成相应的MapReduce任务,然后将任务提交给Hadoop集群执行,最终将结果返回给用户。在读取大文件的过程中,首先获取文件的数据块信息,然后按顺序从对应的DataNode读取数据块,并将数据块写入输出流。首先,将大文件分割为128MB大小的数据块,并使用缓冲区读取数据块的内容。在读取小文件的过程中,首先获取文件的数据块信息,然后从对应的DataNode读取数据块,并将数据块写入输出流。
2024-04-23 21:45:11
466
2
原创 Hadoopd第一天心得
MapReduce(分布式计算框架):MapReduce是Hadoop的分布式计算框架,用于处理大规模数据的计算任务。MapReduce将计算任务分解成Map和Reduce两个阶段,Map阶段负责数据的处理和转换,Reduce阶段负责数据的汇总和计算。HDFS将大文件切分成多个数据块(block),并将这些数据块分布存储在集群的不同节点上,实现数据的分布式存储和高可靠性。Hadoop是一个用于处理大规模数据的开源框架,主要包括HDFS(分布式文件系统)和MapReduce(分布式计算框架)两部分。
2024-04-22 21:05:22
367
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人