Java文件映射[Mmap]揭秘

Java文件映射[mmap]揭秘

 前言

相信现在做Java的人没有人不用NIO来进行IO相关的操作了吧。这个新的IO类库[虽然现在已经不新了]为我们带来了基于块的IO处理方式,通过预定义的Buffer,我们可以更高效地完成IO操作。在NIO中,我比较关注的是一个成为mmap的文件映射功能,其特点是可以把文件的一部分或全部映射到内存中,之后我们就可以通过MappedBuffer对内存进行操作,而操作的结果会由操作系统负责flush到文件中。由于应用程序只是操作内存,所以处理速度比普通的文件操作快很多,在某些应用场景下mmap可以发挥相当大的作用。本文就来揭秘java的mmap背后的工作原理和实现方法,以及使用java的mmap要注意的一些问题。 

1       功能简析

作为NIO的一个重要的功能,Mmap方法为我们提供了将文件的部分或全部映射到内存地址空间的能力,同当这块内存区域被写入数据之后[dirty],操作系统会用一定的算法把这些数据写入到文件中[这一过程java并没有提供API,后面会提到]。这样我们实际上就获得了间接操纵内存的能力,而且内存与文件之间的同步是由操作系统完成的,不用我们额外操心。也就是说,只要我们把内存数据块规划好[也就是实现一下C语言的SharedMemory功能],剩下的事情交给操作系统烦恼就好了。我们既获得了高效的读写操作能力,又解决了数据的持久化问题,多么理想的功能啊!但必须说明的是mmap毕竟不是数据库,不能很方便地提供事务功能、类似sql语句那样的查找功能,也不具备备份、回滚、迁移的能力,这些都要自己实现。不过这样显然不如放在数据库里放心,所以我们的经验是特别重要的数据还是存数据库,不太重要的、但是又访问量很大、读写操作多且需要持久化功能的数据是最适合使用mmap功能的。使用JavammapAPI代码框架如下所示:

(1)RandomAccessFile raf = new RandomAccessFile (File, "rw");

(2)FileChannel channel = raf.getChannel();

(3)MappedByteBuffer buff = channel.map(FileChannel.MapMode.READ_WRITE,startAddr,SIZE);

(4)buf.put((byte)255);

(5)buf.write(byte[] data)

其中最重要的就是那个buff,它是文件在内存中映射的标的物,通过对buffread/write我们就可以间接实现对于文件的读写操作,当然写操作是操作系统帮忙完成的。

虽然mmap功能是如此的强大,但凡事都有局限,javammap瓶颈在哪里?使用mmap会遇到哪些问题和限制?要回到这些问题,还是需要先从mmap的实现入手。 

2   实现原理

研究实现原理的最好方式就是阅读源码,由于SUN(或许不应该这样叫了?)开放了JDK源码,为我们的研究敞开了大门,这里我采用的是linux版的JDK1.6_u13的源码。

2.1     目标和方法

在查看Java源码之前,我首先google了一下mmap,结果发现mmaplinux下是一个系统调用:

void *mmap(void *addr, size_t len, int prot, int flag, int filedes, off_t off );

man了一下发现其功能描述和JavaAPI上说的差不多,难道JDK底层就是用这个东东实现的?马上动手写个程序然后STrace一下看看是不是使用了这个系统调用。这个测试程序应用的就是上面提到的那个程序框架,map1G的文件,然后每次一个字节地往里面写数据,由于很简单这里就不贴出来了。结果如下:

 为简便起见中间的内容就忽略掉了,不过我们可以很清楚地看到mmap的操作就是打开[使用open系统调用]文件,然后mmap之,之后的操作都是对内存地址的直接操作,而操作系统负责把剩下的事情搞定了。于是可以大胆预言,java的实现是用JNI包装了的mmap()系统调用。其功能也应该和下图所示的内容保持一致。

APUE》中关于Mmap()系统调用的示意图

在经过上面的分析之后,我们已经有了初步的目标,那就是找到JavaMmapC源码,看其使用了哪些系统调用。这样我们就可以更好地了解和控制JavaMmap的行为。

 

2.2     询源之旅

还是以上面这个代码框架为例,注意这里除了map文件的动作之外就只有写操作,因为mmap的读方法是读内存的,我们已经很清楚,所以这里我们只关心写操作。通过阅读源码,我得到的结论如下:

 

(1)打开文件和建立FileChannel这两步应该只有一个open()系统调用。

(2)mmap方法没什么悬念地用到了mmap系统调用。但值得注意的是JDK只提供了建立文件/内存映射的方法,而没有给出解除映射关系的API。在FileChannelImpl.java中我们可以看到,解除映射的方法[Unmapper中定义]是在创建MappedByteBuffer时嵌入到这个类里面的,在bufferGC回收之前会调用Unmapperunmap方法来解除文件到内存的映射关系。也就是说我们要想解除映射只能先把buffer置为null,然后祈祷GC赶紧起作用,实在等不及还可以用System.gc()催促一下GC赶快干活,不过后果是会引发FullGC

(3)对于map到内存中的部分的写操作就是对内存地址的写操作,只不过jdk用的是jni。 

3 诡异的问题  

因为在一般运维监控的时候,我们都会很自然地选择Top或者PS看一下进程当前实用的物理内存是多少,以防进程内存占用过高导致系统崩溃。虽然TOP/PS的结果不是十分精确,但是大部分时候还是够用的。然而在使用了javammap之后我们发现,topps命令居然失效了。在我们的程序中map了一个3G大小的文件[这个文件自此之后一直没有变大],可是过几天之后[当然程序里面还有一些业务逻辑]却发现TOP命令的RSS字段居然变成了19G,更夸张的是过几天之后RSS的值仍然在不断增长,这已经远远超过了内存的实际大小,但此时系统的IO并不高,效率没有降低,也根本没用到swap。这就是说TOP/PS的结果是有问题的,此时的RSS已经不能正确标示当前进程所占用的物理内存了,而导致这个问题发生的原因又是什么呢?

为此我查看了一下/proc/PID/smaps文件,因为这里面描述了进程地址空间的使用情况,我得到的结果是:

同一个文件被map了几次,smap文件中就有多少条记录项。于是我们可以大胆猜想,TOP/PS命令是否就是把smaps文件的中RSS做了一个简单的加法输出出来?后来经我们验证果然是这样的!也就是说文件被统一进程map的次数越多,smaps里面的对应项也就越多,所以TOP/PSRSS字段值也就越大。

既然TOP/PS的值已经不可靠了,那么应该怎样获取使用了mmap的进程当前所占用的物理内存呢?google了一下排名最靠前的是一个叫做exmap的工具,不过那个工具不仅自己要重新编译,还需要重新编译内核[因为可能操作系统禁用了Module载入],最不能接受的是还是图形界面的,还有可能造成性能上的不稳定,这些限制使其在开发机上部署和使用变得不现实。后来用尝试了一些系统调用和shell命令,效果都不太理想。

4       后记

我们略带遗憾地结束了JavaMmap之旅,最终也没能找到一个简单而准确的方法来查看当前进程的占用了多少物理内存[前提是不引入影响系统性能的组件和不引入带界面的东西]如果哪位有更好的办法[无论是应用那个命令或者写个小程序都可以]请通过email联系我jxuedi@gmail.com,您的方法如果证明确实有效我会送您一个45cmQQ公仔聊表谢意,同时也可以为这篇文章画上一个完满的句号,期待中……

已标记关键词 清除标记
韦东山老师为啥要录升级版嵌入式视频?<br /><br /> 200x年左右,嵌入式Linux在全世界、在中国刚刚兴起。<br /> 我记得我2005年进入中兴时,全部门的人正在努力学习Linux。<br /> 在2008年,我写了一本书《嵌入式Linux应用开发完全手册》。<br /> 它的大概内容是:裸机、U-boot、Linux内核、Linux设备驱动。<br /> 那时还没有这样讲解整个系统的书,<br /> 芯片厂家Linux开发包也还不完善,从bootloader到内核,再到设备驱动都不完善。<br /> 有全系统开发能力的人也很少。<br /> 于是这书也就恰逢其时,变成了畅销书。<br /> 我也根据这个思路录制了视频:裸机、U-boot、Linux内核、Linux设备驱动。<br /> 收获些许名声,带领很多人进入Linux世界。<br /><br /><strong>11年过去了,嵌入式Linux世界发生了翻天覆地的变化</strong><br /><br /> ① 基本系统能用<br /><br /> 芯片厂家都会提供完整的U-boot、Linux内核、芯片上硬件资源的驱动。<br /> 方案厂家会做一些定制,比如加上某个WIFI模块,会添加这个WIFI模块的驱动。<br /> 你可以使用厂家的原始方案,或是使用/借鉴方案商的方案,做出一个“能用”的产品。<br /><br /> ② 基础驱动弱化;高级驱动专业化<br /><br /> 基础的驱动,比如GPIO、UART、SPI、I2C、LCD、MMC等,有了太多的书籍、视频、示例代码,修修改改总是可以用的。<br /> 很多所谓的驱动工程师,实际上就是“调参工程师”。<br /> 我们群里有名的火哥,提出了一个概念:这些驱动就起一个“hardware enable”的作用。<br /> 高级的驱动,比如USB、PCIE、HDMI、MIPI、GPU、WIFI、蓝牙、摄像头、声卡。<br /><br /> 体系非常复杂,很少有人能讲清楚,很多时候只是一笔带过。<br /> 配置一下应用层工具就了事,能用就成。<br /> 这些高级驱动,工作中需要专门的人来负责,非常专业。<br /> 他们是某一块的专家,比如摄像头专家、音频专家。<br /><br /> ③ 项目为王<br /> 你到一个公司,目的是把产品做出来,会涉及APP到内核到驱动全流程。<br /> 中小公司玩不起华为中兴的配置,需要的是全面手。<br /> 大公司里,只负责很小很小一块的镙丝钉,位置也不太稳固啊。<br /> 所以,如果你不是立志成为某方面的专家,那就做一个全栈工程师吧。<br /><br /> ④ 调试很重要<br /> 都说代码是3分写7分调,各种调试调优技术,可以为你的升职加薪加一把火。<br /> 基于上述4点,我录制的全新视频将有这些特点:<br /> 1. 快速入门,<br /> 2. 实战项目,<br /> 3. 驱动大全,<br /> 4. 专题,<br /> 5. 授人以渔,<br /> 6. 要做任务<br /> 另外,我们会使用多款芯片同时录制,先讲通用的原理,再单独讲各个板子的操作。<br /> 这些芯片涵盖主流芯片公司的主流芯片,让你学习工作无缝对接。<br /><img src="https://img-bss.csdn.net/201911180753564269.jpg" alt="" /><br /><br /><br /><br /> 1.快速入门<br /> 入门讲究的是快速,入门之后再慢慢深入,<br /> 特别是对于急着找工作的学生,对于业余时间挑灯夜读的工作了的人,一定要快!<br /> 再从裸机、U-boot、内核、驱动这样的路线学习就不适合了,时间就拉得太长了。<br /> 搞不好学了后面忘了前面。<br /> 并且实际工作中并不需要你去弄懂U-boot,会用就行:U-boot比驱动还复杂。<br /><br /> 讲哪些内容?<br /><img src="https://img-bss.csdn.net/201911180754297078.png" alt="" /><br /><br /> 怎么讲呢?<br /><br /> 混着讲<br /> 比如先讲LED APP,知道APP怎么调用驱动,再讲LED硬件原理和裸机,最后讲驱动的编写。<br /> 这样可以快速掌握嵌入式Linux的整套开发流程,<br /> 不必像以前那样光学习裸机就花上1、2个月。<br /> 而里面的裸机课程,也会让你在掌握硬件操作的同时,把单片机也学会了。<br /><br /> 讲基础技能<br /><br /> 中断、休眠-唤醒、异步通知、阻塞、内存映射等等机制,会配合驱动和APP来讲解。<br /> 这些技能是嵌入式Linux开发的基础。<br /> 而这些驱动,只会涉及LED、按制、LCD等几个驱动。<br /> 掌握了这些输入、输出的驱动和对应的APP后,你已经具备基本的开发能力了。<br /><br /> 讲配置<br /> 我们从厂家、从方案公司基本上都可以拿到一套完整的开发环境,怎么去配置它?<br /> 需要懂shell和python等配置脚本。<br /><br /><br /> 效果效率优先<br /> 以前我都是现场写代码、现场写文档,字写得慢,降低了学习效率。<br /> 这次,效果与效率统一考虑,不再追求所有东西都现场写。<br /> 容易的地方可先写好代码文档,难的地方现场写。<br /><br /> 2.实战项目<br /> 会讲解这样的涉及linux网关/服务器相关项目(不限于,请多提建议):<br />  <img src="https://img-bss.csdn.net/201911180754541383.jpg" alt="" />            <br />       <br /> 定位为:快速掌握项目开发经验,丰满简历。<br /> 涉及的每一部分都会讲,比如如果涉及蓝牙,在这里只会讲怎么使用,让你能写出程序;如果要深入,可以看后面的蓝牙专题。<br /><br /> 3. 驱动大全<br /> 包括基础驱动、高级驱动。<br /> 这些驱动都是独立成章,深入讲解。<br /> 虽然基础驱动弱化了,但是作为Linux系统开发人员,这是必备技能,并且从驱动去理解内核是一个好方法。<br /> 在讲解这些驱动时,会把驱动的运行环境,比如内核调度,进程线程等概念也讲出来,这样就可以搭建一个知识体系。<br /> 没有这些知识体系的话,对驱动的理解就太肤浅了,等于在Linux框架下写裸机,一叶障目,不见泰山。<br /> 定位为:工具、字典,用到再学习。<br /><br /> 4. 专题<br /> 想深入学习的任何内容,都可独立为专题。<br /> 比如U-boot专题、内核内存管理专题、systemtap调试专题。<br />
相关推荐
©️2020 CSDN 皮肤主题: 大白 设计师:CSDN官方博客 返回首页