- 博客(3)
- 收藏
- 关注
原创 实训项目代码
split(fjrjps,",")[0] as sender_lng, split(fjrjps,",")[1] as sender_lat --提取经度纬度。substr(xxsj,0,10) as dayinfo, substr(xxsj,12,2) as hourinfo, --获取天和小时。comment "今日发送消息最多的Top10用户 "comment "今日发送消息人数、接受消息人数"comment "发送人的设备操作系统分布情况"comment "今日各地区发送消息总量"
2024-04-26 08:30:35
347
原创 Hadoop 学习第二天
随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。这样是不可取的,因为NameNode的内存总是有限的;HDFS的使用场景:适合一次写入,多次读出的场景。小文件存储的寻址时间会超过读取时间,它违反了HDFS的设计目标。1)不适合低延时数据访问,比如毫秒级的存储数据,是做不到的。它通过增加副本的形式,提高容错性。文件规模:能够处理百万规模以上的文件数量,数量相当之大。
2024-04-23 22:49:38
261
原创 Hadoop学习第一天
而DataNode才是真正存放数据的, Secondary NameNode(2nn) :相当与老板的一个秘书,他会备份 一部分 数据,不会备份全部数据。(1 ) NameNode ( nn ):存储文件的 元数据 ,如 文件名,文件目录结构,文件属性 (生成时间、副本数、(2 ) DataNode(dn) :在本地文件系统 存储文件块数据 ,以及 块数据的校验和。简单的说就是NameNode就相当于一个目录,一个索引,负责标记每一个DataNode的存放位置。(2)主要解决海量数据的。
2024-04-22 22:51:32
237
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人