- 博客(6)
- 收藏
- 关注
原创 Hadoop-MapReduce
每一个Map可以独享的一个内存区域。因为溢写会产生很多有序(分区 key)的小文件,而且小文件的数目不确定,后面向reduce传递数据带来很大的问题,所以将小文件合并成一个大文件,将来拉取的数据直接从大文件拉取即可,合并小文件的时候同样进行排序(归并排序),最终产生一个有序的大文件。在不改变现在数据存储的情况下,可以控制参与计算的节点数目,通过切片大小可以达到控制计算节点数量的目的,一般切片的大小为块的整数倍,默认情况下,Split 切片的大小等于 Block 的大小 ,默认128M, 一个切片对应一个。
2024-08-29 16:21:18 770
原创 Hadoop—HDFS
客户端 -> NameNode 一般最少俩台存储元数据(存储的文件名格式等) 不包扩数据存储的DataNode节点 多台NameNode根据Zookeeper进行选主当主节点宕机会自动切换,如果是因为网络延时Zookeeper没能监听到,会先杀死该线程再切换主节点。6.ANN会使用fsimage加edits inprogress文件还有大于fsimage的edits文件即可完全恢复元数据。3.主备NN的edits都是不完整,但是QJM是完整的。1.edits文件用于存储元数据,默认2分钟生成一个。
2024-08-29 16:07:21 945
原创 Hive 数仓
相对于 Hadoop-MapReduce 而言减少学习成本,因为要学习 Java 或 Python,MapReduce 实现复杂的查询逻辑的时候,开发难度相对较大,Hive 要比直接使用 MapReduce 开发效率更高。开发效率更高原因是:操作接口采用类似 SQL 的语法,提供快速开发的能力。免去了写 MapReduce 的过程,减少开发人员的学习成本。功能扩展方便。
2024-08-26 16:56:00 1016
原创 HBase
LSM 树属于树形结构,最末端的子节点是以内存的方式进行存储的,内存中的小树会 Flush 到磁盘中(当子节点达到一定阈值 以后,会放到磁盘中,且存入的过程会进行实时 Merge 成一个主节点,然后磁盘中的树定期会做 Merge 操作,合并成一棵大树,以优化读性能)。这个策略中,最小的分裂大小和 Table 的某个 HRegionServer 的 HRegion 个数有关,当 StoreFile 的大小大于以下公式得出的值的时候就会 Split。中,再将临时文件移动到对应 HRegion 的数据目录。
2024-08-26 16:54:15 1043
原创 如何使用宝塔面板操作阿里云 Linux 系统
使用宝塔面板管理阿里云Linux服务器,可以大大简化服务器管理工作,适合不熟悉命令行操作的用户。通过以上步骤,你可以快速搭建和管理自己的服务器和网站,提高运维效率。注意保持服务器的安全设置和定期备份,以防止数据丢失和安全威胁。
2024-08-26 16:24:32 705
原创 网易云音乐故障事件的启示:如何优化软件服务的稳定性?
面对突发的技术故障,快速响应和有效解决问题是关键。而建立健全的危机应对机制和在日常工作中采取预防措施,则是减少故障发生几率的有效途径。在技术风暴中站稳脚跟,需要整个团队的共同努力,提升应急处理能力,才能在数字化时代的竞争中保持领先。
2024-08-26 16:07:03 435
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人