时光渐逝-CSDN博客

原创 Spark Core

RDD 是 Resilient Distributed Dataset 的缩写，意思为弹性分布式数据集（一种数据结构），是一个读取分区记录的集合，是 Spark 对需要处理的数据的基本抽象。

2024-12-05 17:09:41 1323

每一个Map可以独享的一个内存区域。因为溢写会产生很多有序(分区 key)的小文件，而且小文件的数目不确定，后面向reduce传递数据带来很大的问题，所以将小文件合并成一个大文件，将来拉取的数据直接从大文件拉取即可，合并小文件的时候同样进行排序(归并排序),最终产生一个有序的大文件。在不改变现在数据存储的情况下，可以控制参与计算的节点数目，通过切片大小可以达到控制计算节点数量的目的，一般切片的大小为块的整数倍，默认情况下，Split 切片的大小等于 Block 的大小 ,默认128M，一个切片对应一个。

2024-08-29 16:21:18 919

原创 Hadoop—HDFS

客户端 -> NameNode 一般最少俩台存储元数据（存储的文件名格式等）不包扩数据存储的DataNode节点多台NameNode根据Zookeeper进行选主当主节点宕机会自动切换，如果是因为网络延时Zookeeper没能监听到，会先杀死该线程再切换主节点。6.ANN会使用fsimage加edits inprogress文件还有大于fsimage的edits文件即可完全恢复元数据。3.主备NN的edits都是不完整，但是QJM是完整的。1.edits文件用于存储元数据，默认2分钟生成一个。

2024-08-29 16:07:21 1318

原创 Hive 数仓

相对于 Hadoop-MapReduce 而言减少学习成本，因为要学习 Java 或 Python，MapReduce 实现复杂的查询逻辑的时候，开发难度相对较大，Hive 要比直接使用 MapReduce 开发效率更高。开发效率更高原因是：操作接口采用类似 SQL 的语法，提供快速开发的能力。免去了写 MapReduce 的过程，减少开发人员的学习成本。功能扩展方便。

2024-08-26 16:56:00 1241

原创 HBase

LSM 树属于树形结构，最末端的子节点是以内存的方式进行存储的，内存中的小树会 Flush 到磁盘中（当子节点达到一定阈值以后，会放到磁盘中，且存入的过程会进行实时 Merge 成一个主节点，然后磁盘中的树定期会做 Merge 操作，合并成一棵大树，以优化读性能）。这个策略中，最小的分裂大小和 Table 的某个 HRegionServer 的 HRegion 个数有关，当 StoreFile 的大小大于以下公式得出的值的时候就会 Split。中，再将临时文件移动到对应 HRegion 的数据目录。

2024-08-26 16:54:15 1451

原创如何使用宝塔面板操作阿里云 Linux 系统

使用宝塔面板管理阿里云Linux服务器，可以大大简化服务器管理工作，适合不熟悉命令行操作的用户。通过以上步骤，你可以快速搭建和管理自己的服务器和网站，提高运维效率。注意保持服务器的安全设置和定期备份，以防止数据丢失和安全威胁。

2024-08-26 16:24:32 1241

原创网易云音乐故障事件的启示：如何优化软件服务的稳定性？

面对突发的技术故障，快速响应和有效解决问题是关键。而建立健全的危机应对机制和在日常工作中采取预防措施，则是减少故障发生几率的有效途径。在技术风暴中站稳脚跟，需要整个团队的共同努力，提升应急处理能力，才能在数字化时代的竞争中保持领先。

2024-08-26 16:07:03 603

m0_62193445的博客