自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 Hadoop-MapReduce

每一个Map可以独享的一个内存区域。因为溢写会产生很多有序(分区 key)的小文件,而且小文件的数目不确定,后面向reduce传递数据带来很大的问题,所以将小文件合并成一个大文件,将来拉取的数据直接从大文件拉取即可,合并小文件的时候同样进行排序(归并排序),最终产生一个有序的大文件。在不改变现在数据存储的情况下,可以控制参与计算的节点数目,通过切片大小可以达到控制计算节点数量的目的,一般切片的大小为块的整数倍,默认情况下,Split 切片的大小等于 Block 的大小 ,默认128M, 一个切片对应一个。

2024-08-29 16:21:18 770

原创 Hadoop—HDFS

客户端 -> NameNode 一般最少俩台存储元数据(存储的文件名格式等) 不包扩数据存储的DataNode节点 多台NameNode根据Zookeeper进行选主当主节点宕机会自动切换,如果是因为网络延时Zookeeper没能监听到,会先杀死该线程再切换主节点。6.ANN会使用fsimage加edits inprogress文件还有大于fsimage的edits文件即可完全恢复元数据。3.主备NN的edits都是不完整,但是QJM是完整的。1.edits文件用于存储元数据,默认2分钟生成一个。

2024-08-29 16:07:21 945

原创 Hive 数仓

相对于 Hadoop-MapReduce 而言减少学习成本,因为要学习 Java 或 Python,MapReduce 实现复杂的查询逻辑的时候,开发难度相对较大,Hive 要比直接使用 MapReduce 开发效率更高。开发效率更高原因是:操作接口采用类似 SQL 的语法,提供快速开发的能力。免去了写 MapReduce 的过程,减少开发人员的学习成本。功能扩展方便。

2024-08-26 16:56:00 1016

原创 HBase

LSM 树属于树形结构,最末端的子节点是以内存的方式进行存储的,内存中的小树会 Flush 到磁盘中(当子节点达到一定阈值 以后,会放到磁盘中,且存入的过程会进行实时 Merge 成一个主节点,然后磁盘中的树定期会做 Merge 操作,合并成一棵大树,以优化读性能)。这个策略中,最小的分裂大小和 Table 的某个 HRegionServer 的 HRegion 个数有关,当 StoreFile 的大小大于以下公式得出的值的时候就会 Split。中,再将临时文件移动到对应 HRegion 的数据目录。

2024-08-26 16:54:15 1043

原创 如何使用宝塔面板操作阿里云 Linux 系统

使用宝塔面板管理阿里云Linux服务器,可以大大简化服务器管理工作,适合不熟悉命令行操作的用户。通过以上步骤,你可以快速搭建和管理自己的服务器和网站,提高运维效率。注意保持服务器的安全设置和定期备份,以防止数据丢失和安全威胁。

2024-08-26 16:24:32 705

原创 网易云音乐故障事件的启示:如何优化软件服务的稳定性?

面对突发的技术故障,快速响应和有效解决问题是关键。而建立健全的危机应对机制和在日常工作中采取预防措施,则是减少故障发生几率的有效途径。在技术风暴中站稳脚跟,需要整个团队的共同努力,提升应急处理能力,才能在数字化时代的竞争中保持领先。

2024-08-26 16:07:03 435

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除