白日碧玉-CSDN博客

原创实训项目代码

split(fjrjps,",")[0] as sender_lng, split(fjrjps,",")[1] as sender_lat --提取经度纬度。substr(xxsj,0,10) as dayinfo, substr(xxsj,12,2) as hourinfo, --获取天和小时。comment "今日发送消息最多的Top10用户 "comment "今日发送消息人数、接受消息人数"comment "发送人的设备操作系统分布情况"comment "今日各地区发送消息总量"

2024-04-26 08:30:35 347

原创 Hadoop 学习第二天

随着数据量越来越大，在一个操作系统存不下所有的数据，那么就分配到更多的操作系统管理的磁盘中，但是不方便管理和维护，迫切需要一种系统来管理多台机器上的文件，这就是分布式文件管理系统。这样是不可取的，因为NameNode的内存总是有限的；HDFS的使用场景：适合一次写入，多次读出的场景。小文件存储的寻址时间会超过读取时间，它违反了HDFS的设计目标。1）不适合低延时数据访问，比如毫秒级的存储数据，是做不到的。它通过增加副本的形式，提高容错性。文件规模：能够处理百万规模以上的文件数量，数量相当之大。

2024-04-23 22:49:38 261

原创 Hadoop学习第一天

而DataNode才是真正存放数据的， Secondary NameNode(2nn) ：相当与老板的一个秘书，他会备份一部分数据，不会备份全部数据。（1 ） NameNode （ nn ）：存储文件的元数据，如文件名，文件目录结构，文件属性（生成时间、副本数、（2 ） DataNode(dn) ：在本地文件系统存储文件块数据，以及块数据的校验和。简单的说就是NameNode就相当于一个目录，一个索引，负责标记每一个DataNode的存放位置。（2）主要解决海量数据的。

2024-04-22 22:51:32 237

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 实训项目代码

原创 Hadoop 学习第二天

原创 Hadoop学习第一天

空空如也

空空如也

原创实训项目代码