1.系统背景
这是当时开发中遇到的一个真实场景,也是大部分人在开发项目中有可能会遇到的一些场景,该系统主要是做大数据相关计算分析的,日处理数据量在上亿的规模。这里我们重点针对JVM内存的管理来进行模型分析,数据的来源获取主要是MYSQL数据库以及其他数据源里提取大量的数据,通过加载到JVM内存的过程我们来一起分析出现的问题以及如何优化解决(如下图所示):
2.生产环境
这是一套分布式运行系统,生产环境部署了多台服务器(每台4核8G配置),每台机器大概每分钟负责执行100次数据提取和计算,每次提取大概1万条左右的数据到内存计算,平均每次计算需要耗费10秒左右时间。 JVM内存总共分配了4G,堆内存占3G,其中新生代和老年代分别是1.5G的内存空间
3.过程分析
按照上述的背景和实际生产环境,那每次1万条数据会占用多少的内存空间呢?这里每条数据较大,平均包含20个字段,可以认为每条数据大概在1KB左右。那么1万条数据对应就是10MB大小。那么运行多久就会导致新生代塞满呢?
新生代总共分配1.5G,那么Eden区分配就是1.2G,S1和S2区分别是150MB;如下图: