Hibernate的cache管理，海量数据处理和性能优化

最新推荐文章于 2024-10-06 20:16:20 发布

weixin_34306593

最新推荐文章于 2024-10-06 20:16:20 发布

阅读量78

点赞数

文章标签： java 数据库大数据

原文链接：http://blog.51cto.com/lya041/694077

版权

Hibernate的cache管理

Cache 就是缓存，它往往是提高系统性能的最重要手段，对数据起到一个蓄水池和缓冲的作用。Cache对于大量依赖数据读取操作的系统而言尤其重要。在大并发量的情况下，如果每次程序都需要向数据库直接做查询操作，它们所带来的性能开销是显而易见的，频繁的网络舆，数据库磁盘的读写操作都会大大降低系统的性能。此时如果能让数据库在本地内存中保留一个镜像，下次访问的时候只需要从内存中直接获取，那么显然可以带来不小的性能提升。引入Cache机制的难点是如何保证内存中数据的有效性，否则脏数据的出现将会给系统带来难以预知的严重后果。虽然一个设计得很好的应用程序不用Cache也可以表现出让人接受的性能，但毫无疑问，一些对读取操作要求比较高的应用程序可以通过Cache获得更高的性能。对于应用程序，Cache通过内存或磁盘保存了数据库中的当前有关数据状态，它是一个存储在本地的数据备份。Cache位于数据库和应用程序之间，从数据库更新数据，并给程序提供数据。
Hibernate实现了良好的Cache机制，可以借助Hibernate内部的Cache迅速提高系统的数据读取性能。Hibernate中的Cache可分为两层：一级Cache和二级Cache。
一级Cache:
Session实现了第一级Cache，它属于事务级数据缓冲。一旦事务结束，这个Cache也随之失效。一个Session的生命周期对应一个数据库事务或一个程序事务。
Session-cache保证了一个Session中两次请求同一个对象时，取得的对象是同一个JAVA实例，有时它可以避免不必要的数据冲突。另外，它还能为另一些重要的性能提供保证：
1：在对一个对象进行自我循环引用时，不至于产生堆栈溢出。
2：当数据库事务结束时，对于同一个数据库行，不会产生数据冲突，因为对于数据库中的一行，最多只有一个对象来表示它。
3：一个事务中可能会有很多个处理单元，在每一个处理单元中做的操作都会立即被另外的处理单元得知。
我们不用刻意去打开Session-cache，它总是被打开并且不能被关闭。当使用save(),update()或saveOrUpdate()来保存数据更改，或通过load(),find(),list()等方法来得到对象时，对象就会被加入到Session-cache。
如果要同步很多数据对象，就需要有效地管理Cache,可以用Session的evict()方法从一级Cache中移除对象。如下：

Session session = HibernateUtil.currentSession();

Transaction tx = session.beginTransaction();

for(int i = 0 ; i <100000 ; i++ )

{

Student stu = new Student();

session.save(stu);

}

tx.commit();

session.close();

在保存50000个或更多对象时，程序可能会抛出OutOfMemoryException异常，因为Hibernate在一级Cache缓存了新加入的所有对象。内存溢出。要解决这全问题就需要把JDBC批处理数量设置为一个合理的数值（一般是10～20）。在Hibernate的配置文件中可以加入以下属性

然后我们在程序中一定时刻就提交并更新Session的Cache:

Session session = HibernateUtil.currentSession();

Transaction tx = session.beginTransaction();

for(int i = 0 ; i <100000 ; i++ )

{

Student stu = new Student();

session.save(stu);

if(i%20 == 0) //每保存完20个对象后，进行如下操作

{

session.flush();//这个会提交更新

session.clear();//清除Cache,释放内存

}

tx.commit();

session.close();

二级Cache
二级Cache是SessionFactory范围内的缓存，所有的Session共享同一个二级Cache。在二级 Cache中保存持久性实例的散装形式的数据。二级Cache的内部如何实现并不重要，重要的是采用哪种正确的缓存策略，以及采用哪个Cache提供器。持久化不同的数据需要不同的Cache策略，比如一些因素将影响到Cache策略的选择：数据的读/写比例，数据表是否能被其他的应用程序扬访问等。对于一些读/写比例高的数据可以打开它的缓存，允许这些数据进入二级缓存容器有利于系统性能的优化;而对于能被其它应用程序访问的数据对象，最好将此对象的二级Cache选项关闭。
设置Hibernate的二级Cache需要分两步进行：首先确认使用什么数据并发策略，然后配置缓存过期时间并设置Cache提供器。
有4种内置的Hibernate数据并发冲突策略，代表数据库隔离级别，如下：
1：事务（Transaction）仅在受管理的环境中可用。它保证可重读的事务隔离级别，可以对读/写比例高，很少更新的数据采用该策略。
2：读写（read-write）使用时间戳机制维护读写提交事务隔离级别。可以对读/写比例高，很少更新的数据采用该策略。
3：非严格读写（notstrict-read-write）不保证Cache和数据库之间的数据库的一致性。使用此策略时，应该设置足够的缓存过期时间，否则可能从缓存中读出脏数据。当一些数据极少改变，并且当这些数据和数据库有一部份不量影响不大时，可以使用此策略。
4：只读（read-only）当确保数据永不改变时，可以使用此策略。

我们确定了Cache策略后，就要挑选一个高效的Cache提供器，它将作为插件被Hibernate调用。Hibernate允许使用下述几种缓存插件：
EhCache：可以在JVM中作为一个简单进程范围内的缓存，它可以把缓存的数据放入内存或磁盘，并支持Hibernate中可选用的查询缓存。
OpenSymphony OSCache：和EhCache相似，并且提供了丰富的缓存过期策略。
SwarmCache：可作为集群范围的缓存，但不支持查询缓存。
JBossCache：可作为集群范围的缓冲，但不支持查询缓存。

在Hibernate中使用EhCache
EhCache是一个纯JAVA程序，可以在Hibernate中作为一个插件引入。在Hibernate中使用EhCache需要在Hibernate的配置文件中设置如下：

org.hibernate.cache.EhCacheProvider

</property>

EhCacheProvider 类是位于Hibernate3.jar包中而不是ehcache-1.1.jar包中。EhCache有自己的配置文档，名为chcache.xml。 Hibernate3.x中的etc目录下有ehcache.xml的示例文件，只须要将它COPY到我们的应用程序src目录下（编译时会把ehcache.xmlCOPY到WEB-INF/classes目录下）。对其中的相关值进行更改以和自己的程序相适应。进行配置后，在ehcache.xml文件中的代码如下：

<diskStore path="c:\\cache"/> //设置cache.data文件存放位置

< defaultCache

maxElementsInMemory="10000" //缓存中允许创建的最大对象数

eternal="false" //缓存中对象是否为永久的

timeToIdleSeconds="120" //缓存数据钝化时间(即对象在它过期前的空闲时间)

timeToLiveSeconds="120" //缓存数据生存时间(即对象在它过期前的生存时间)

overflowToDisk="true"

<cache name="Student" //用户自定义的Cache配置

maxElementsInMemory="10000"

eternal="false"

timeToIdleSeconds="300"

timeToLiveSeconds="600"

overflowToDisk="true"

</ehcache>

此外我们还需要在持久化类的映射文件中进行配置。例如，Group(班级)和Student(学生)是一对多的关系，它们对应的数据表分别是t_group和t_student。现在要把Student类的数据进行二级缓存，这需要在二个映射文件中都对二级缓存进行配置。
在Group.hbm.xml中如下
在其<set></set>中添加

上述文件虽然在<set>标记中设置了<cache usage="read-write"/>，但Hibernate只是把Group相关的Student的主键ID加入到缓存中，如果希望把整个Student的散装属性都加入到二级缓存中，还需要在Student.hbm.xml文件的<class>标记中添加<cache>子标记。如下：

</class>
---------------------------------------------------------------------------------------------------------------------------------
在项目中使用Hibernate进行大数据量的性能测试，有一些总结，分享出来：
1) 在处理大数据量时，会有大量的数据缓冲保存在Session的一级缓存中，这缓存大太时会严重显示性能，所以在使用Hibernate处理大数据量的，可以使用session.clear()或者session. Evict(Object) 在处理过程中，清除全部的缓存或者清除某个对象。

2) 对大数据量查询时，慎用list()或者iterator()返回查询结果，
1. 使用List()返回结果时，Hibernate会所有查询结果初始化为持久化对象，结果集较大时，会占用很多的处理时间。
2. 而使用iterator()返回结果时，在每次调用iterator.next()返回对象并使用对象时，Hibernate才调用查询将对应的对象初始化，对于大数据量时，每调用一次查询都会花费较多的时间。当结果集较大，但是含有较大量相同的数据，或者结果集不是全部都会使用时，使用 iterator()才有优势。
3. 对于大数据量，使用qry.scroll()可以得到较好的处理速度以及性能。而且直接对结果集向前向后滚动。

3) 对于关联操作，Hibernate虽然可以表达复杂的数据关系，但请慎用，使数据关系较为简单时会得到较好的效率，特别是较深层次的关联时，性能会很差。

4) 对含有关联的PO（持久化对象）时，若default-cascade="all"或者 “save-update”，新增PO时，请注意对PO中的集合的赋值操作，因为有可能使得多执行一次update操作。

5) 在一对多、多对一的关系中，使用延迟加载机制，会使不少的对象在使用时方会初始化，这样可使得节省内存空间以及减少数据库的负荷，而且若PO中的集合没有被使用时，就可减少互数据库的交互从而减少处理时间。

6) 对于大数据量新增、修改、删除操作或者是对大数据量的查询，与数据库的交互次数是决定处理时间的最重要因素，减少交互的次数是提升效率的最好途径，所以在开发过程中，请将show_sql设置为true，深入了解Hibernate的处理过程，尝试不同的方式，可以使得效率提升。

7) Hibernate是以JDBC为基础，但是Hibernate是对JDBC的优化，其中使用Hibernate的缓冲机制会使性能提升，如使用二级缓存以及查询缓存，若命中率较高明，性能会是到大幅提升。

8) Hibernate可以通过设置hibernate.jdbc.fetch_size，hibernate.jdbc.batch_size等属性，对Hibernate进行优化。

转载于:https://blog.51cto.com/lya041/694077