java高速缓存大小设置_关于java:使用FileInputStream时如何确定理想的缓冲区大小?...

我有一个从文件创建MessageDigest(哈希)的方法,我需要对很多文件(> = 100,000)执行此操作。 为了使性能最大化,我应该为读取文件设置多大的缓冲区?

大多数人都熟悉基本代码(为防万一,在此重复):

MessageDigest md = MessageDigest.getInstance("SHA" );

FileInputStream ios = new FileInputStream("myfile.bmp" );

byte[] buffer = new byte[4 * 1024]; // what should this value be?

int read = 0;

while( ( read = ios.read( buffer ) ) > 0 )

md.update( buffer, 0, read );

ios.close();

md.digest();

最大化吞吐量的理想缓冲区大小是多少? 我知道这是与系统有关的,我很确定它与操作系统,文件系统和HDD有关,并且可能还有其他硬件/软件。

(我应该指出,我是Java的新手,所以这可能只是一些我不知道的Java API调用。)

编辑:我不提前知道将要使用的系统种类,所以我不能承担很多。 (出于这个原因,我使用Java。)

编辑:上面的代码缺少try..catch之类的东西,以使帖子更小

最佳缓冲区大小与许多因素有关:文件系统块大小,CPU缓存大小和缓存延迟。

大多数文件系统都配置为使用4096或8192的块大小。理论上,如果配置缓冲区大小,以便读取的内容比磁盘块多几个字节,则文件系统的操作效率极低(即配置您的缓冲区一次读取4100字节,文件系统每次读取将需要2次块读取)。如果这些块已经在缓存中,那么您就要付出RAM-> L3 / L2缓存延迟的代价。如果您不走运并且块还没有在缓存中,那么您还要付出磁盘-> RAM延迟的代价。

这就是为什么您看到大多数缓冲区的大小是2的幂,并且通常大于(或等于)磁盘块大小的原因。这意味着您的流读取之一可能会导致多个磁盘块读取-但是这些读取将始终使用完整的块-不会浪费读取。

现在,在典型的流传输方案中,这可以抵消很多,因为从磁盘读取的块将在您下一次读取时仍在内存中(毕竟,我们在这里进行顺序读取)-这样就结束了在下一次读取时向RAM-> L3 / L2缓存延迟时间支付价格,而不是磁盘-> RAM延迟时间。就数量级而言,磁盘-> RAM延迟是如此之慢,以至于几乎淹没了您可能要处理的任何其他延迟。

因此,我怀疑如果您使用不同的缓存大小运行测试(我自己没有这样做),则可能会发现缓存大小对文件系统块的大小有很大影响。除此之外,我怀疑情况会很快趋于平稳。

这里有很多条件和例外-系统的复杂性实际上是相当惊人的(仅仅掌握L3-> L2高速缓存传输的过程令人难以置信,并且每个CPU类型都会变化)。

这导致了"现实世界"的答案:如果您的应用程序有99%的可用空间,请将缓存大小设置为8192并继续运行(甚至更好,选择封装而不是性能,并使用BufferedInputStream隐藏细节)。如果您处于高度依赖磁盘吞吐量的1%的应用程序中,请精心设计实施方案,以便交换出不同的磁盘交互策略,并提供旋钮和转盘,以允许您的用户进行测试和优化(或提出一些建议)自我优化系统)。

我在Android应用程序的手机(Nexus 5X)上做了一些标记:小文件(3,5Mb)和大文件(175 Mb)。并发现黄金大小将为524288个长度的byte []。好吧,如果您根据文件大小在小缓冲区4Kb和大缓冲区524Kb之间进行切换,则可能会赢得10-20ms,但这并不值得。因此,在我的情况下,524 Kb是最好的选择。

是的,这可能取决于各种因素-但我怀疑这会带来很大的不同。我倾向于选择16K或32K作为内存使用和性能之间的良好平衡。

请注意,您应该在代码中包含try / finally块,以确保即使抛出异常也可以关闭流。

我编辑了有关try..catch的帖子。在我的真实代码中,我有一个,但是我省略了它,以使帖子更短。

如果我们要为其定义一个固定尺寸,哪个尺寸更好? 4k,16k或32k?

@MohammadrezaPanahi:请不要使用评论来badge用户。您等待了不到一个小时,才发表第二条评论。请记住,用户可以很容易地睡着,开会或基本上忙于其他事情,并且没有义务回答评论。但是要回答您的问题:这完全取决于上下文。如果您在内存非常有限的系统上运行,则可能需要一个较小的缓冲区。如果您在大型系统上运行,则使用较大的缓冲区将减少读取调用的次数。凯文·戴斯的回答非常好。

@JonSkeet很抱歉打扰您。因为我赶时间。

在大多数情况下,这并不重要。只需选择一个合适的尺寸(例如4K或16K)并坚持使用即可。如果您肯定这是应用程序中的瓶颈,那么应该开始进行性能分析以找到最佳的缓冲区大小。如果选择的尺寸过小,则会浪费时间进行额外的I / O操作和额外的函数调用。如果选择的尺寸太大,则会开始看到很多缓存未命中,这实际上会使您的速度降低。不要使用大于二级缓存大小的缓冲区。

使用Java NIO的FileChannel和MappedByteBuffer读取文件很可能会导致解决方案比任何涉及FileInputStream的解决方案都快得多。基本上,内存映射大文件,并为小文件使用直接缓冲区。

您可以使用BufferedStreams / reader,然后使用它们的缓冲区大小。

我相信BufferedXStreams使用8192作为缓冲区大小,但是就像Ovidiu所说的那样,您可能应该对很多选项进行测试。最佳大小的确取决于文件系统和磁盘配置。

在理想情况下,我们应该有足够的内存以一次读取操作读取文件。

那将是最佳性能,因为我们让系统随意管理文件系统,分配单元和HDD。

在实践中,您很幸运地提前知道了文件大小,只需使用四舍五入至4K(NTFS上的默认分配单位)的平均文件大小即可。

最重要的是:创建一个基准来测试多个选项。

您是说文件读写的最佳缓冲区大小是4k?

在BufferedInputStream的源代码中,您将找到:private static int DEFAULT_BUFFER_SIZE = 8192;

因此,使用该默认值是可以的。

但是,如果您能找到更多的信息,您将获得更有价值的答案。

例如,您的adsl可能会提供1454字节的缓冲区,这是因为TCP / IP的有效负载。对于磁盘,您可以使用与磁盘的块大小匹配的值。

正如其他答案中已经提到的那样,请使用BufferedInputStreams。

在那之后,我猜缓冲区的大小并不重要。这两个程序都是受I / O约束的,并且缓冲区大小超过BIS默认值将不会对性能产生太大影响。

或者该程序在MessageDigest.update()中绑定了CPU,并且大部分时间没有花费在应用程序代码中,因此进行调整将无济于事。

(嗯...有多个核心,线程可能会有所帮助。)

1024在各种情况下都适用,尽管实际上在使用更大或更小的缓冲区时,您可能会看到更好的性能。

这将取决于许多因素,包括文件系统块

大小和CPU硬件。

通常为缓冲区大小选择2的幂,因为大多数底层

硬件由fle块和缓存大小(为2的幂)构成。

类允许您在构造函数中指定缓冲区大小。如果没有提供,则它们

使用默认值,在大多数JVM中,默认值为2的幂。

无论您选择哪种缓冲区大小,都将获得最大的性能提升

看到正在从非缓冲文件访问转移到缓冲文件访问。调整缓冲区大小可能

稍微提高性能,但除非您使用的是极小或极高的

如果缓冲区大小较大,则影响不大。

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
在现有省、市港口信息化系统进行有效整合基础上,借鉴新 一代的感知-传输-应用技术体系,实现对码头、船舶、货物、重 大危险源、危险货物装卸过程、航管航运等管理要素的全面感知、 有效传输和按需定制服务,为行政管理人员和相关单位及人员提 供高效的管理辅助,并为公众提供便捷、实的水运信息服务。 建立信息整合、交换和共享机制,建立健全信息化管理支撑 体系,以及相关标准规范和安全保障体系;按照“绿色循环低碳” 交通的要求,搭建高效、弹性、高可扩展性的基于虚拟技术的信 息基础设施,支撑信息平台低成本运行,实现电子政务建设和服务模式的转变。 实现以感知港口、感知船舶、感知货物为手段,以港航智能 分析、科学决策、高效服务为目的和核心理念,构建“智慧港口”的发展体系。 结合“智慧港口”相关业务工作特点及信息化现状的实际情况,本项目具体建设目标为: 一张图(即GIS 地理信息服务平台) 在建设岸线、港口、港区、码头、泊位等港口主要基础资源图层上,建设GIS 地理信息服务平台,在此基础上依次接入和叠加规划建设、经营、安全、航管等相关业务应用专题数据,并叠 加动态数据,如 AIS/GPS/移动平台数据,逐步建成航运管理处 "一张图"。系统支持扩展框架,方便未来更多应用资源的逐步整合。 现场执法监管系统 基于港口(航管)执法基地建设规划,依托统一的执法区域 管理和数字化监控平台,通过加强对辖区内的监控,结合移动平 台,形成完整的多维路径和信息追踪,真正做到问题能发现、事态能控制、突发问题能解决。 运行监测和辅助决策系统 对区域港口与航运业务日常所需填报及监测的数据经过科 学归纳及分析,采用统一平台,消除重复的填报数据,进行企业 输入和自动录入,并进行系统智能判断,避免填入错误的数据, 输入的数据经过智能组合,自动生成各业务部门所需的数据报 表,包括字段、格式,都可以根据需要进行定制,同满足扩展 性需要,当有新的业务监测数据表需要产生,系统将分析新的 需求,将所需字段融合进入日常监测和决策辅助平台的统一平台中,并生成新的所需业务数据监测及决策表。 综合指挥调度系统 建设以港航应急指挥中心为枢纽,以各级管理部门和经营港 口企业为节点,快速调度、信息共享的通信网络,满足应急处置中所需要的信息采集、指挥调度和过程监控等通信保障任务。 设计思路 根据项目的建设目标和“智慧港口”信息化平台的总体框架、 设计思路、建设内容及保障措施,围绕业务协同、信息共享,充 分考虑各航运(港政)管理处内部管理的需求,平台采用“全面 整合、重点补充、突出共享、逐步完善”策略,加强重点区域或 运输通道交通基础设施、运载装备、运行环境的监测监控,完善 运行协调、应急处置通信手段,促进跨区域、跨部门信息共享和业务协同。 以“统筹协调、综合监管”为目标,以提供综合、动态、实 、准确、实用的安全畅通和应急数据共享为核心,围绕“保畅通、抓安全、促应急"等实际需求来建设智慧港口信息化平台。 系统充分整合和利用航运管理处现有相关信息资源,以地理 信息技术、网络视频技术、互联网技术、移动通信技术、云计算 技术为支撑,结合航运管理处专网与行业数据交换平台,构建航 运管理处与各部门之间智慧、畅通、安全、高效、绿色低碳的智 慧港口信息化平台。 系统充分考虑航运管理处安全法规及安全职责今后的变化 与发展趋势,应用目前主流的、成熟的应用技术,内联外引,优势互补,使系统建设具备良好的开放性、扩展性、可维护性。
提供的源码资源涵盖了安卓应用、小程序、Python应用和Java应用等多个领域,每个领域都包含了丰富的实例和项目。这些源码都是基于各自平台的最新技术和标准编写,确保了在对应环境下能够无缝运行。同,源码中配备了详细的注释和文档,帮助用户快速理解代码结构和实现逻辑。 适用人群: 这些源码资源特别适合大学生群体。无论你是计算机相关专业的学生,还是对其他领域编程感兴趣的学生,这些资源都能为你提供宝贵的学习和实践机会。通过学习和运行这些源码,你可以掌握各平台开发的基础知识,提升编程能力和项目实战经验。 使用场景及目标: 在学习阶段,你可以利用这些源码资源进行课程实践、课外项目或毕业设计。通过分析和运行源码,你将深入了解各平台开发的技术细节和最佳实践,逐步培养起自己的项目开发和问题解决能力。此外,在求职或创业过程中,具备跨平台开发能力的大学生将更具竞争力。 其他说明: 为了确保源码资源的可运行性和易用性,特别注意了以下几点:首先,每份源码都提供了详细的运行环境和依赖说明,确保用户能够轻松搭建起开发环境;其次,源码中的注释和文档都非常完善,方便用户快速上手和理解代码;最后,我会定期更新这些源码资源,以适应各平台技术的最新发展和市场需求。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值