症状:OLAP上执行的程序连到RAC后,比原来单机的时候慢了。
测试方法:
1.对一张大表全表扫描和建新表,比较RAC和单机上的速度,如果两者速度差不多,则排除RAC问题,因为RAC是新上的。如果这一步测出RAC没问题,则继续下一步测试。
2.清空OLAP的db buffer cache,在OLAP上通过dblink访问单机和RAC,比较两者的速度,判断问题是否出在网络上。
在执行第1步时就判断出问题出在RAC上,RAC上全表扫描比单机慢很多。如下:
单实例查询大表的效率:
SQL> select /*+ full(cu_customer) */ count(*) from customer_temp; COUNT(*)
----------
2434230
Elapsed: 00:00:00.73 --sql执行时间都是取的多次执行后的时间。
测试RAC查询大表的效率:
SQL> select /*+ full(cu_customer) */ count(*) from customer_temp; COUNT(*)
----------
2434230
Elapsed: 00:00:02.97
RAC比单实例慢了2秒多,而且RAC一直跑不进2秒内。
既然问题出在RAC上,现在RAC上所有东西都是值得怀疑的,如何定位问题呢?采取了以下方法:
1.节点1删除RAC集群,重装了oracle软件,把库的rman备份恢复到了节点1的本地硬盘上,在这个节点上以上sql速度很快,排除节点1硬件问题。
2.把盘柜格式化成ext3,在节点2上dd测试本地硬盘和盘柜的速度,都正常,排除节点1和盘柜硬件问题。
3.节点2重装oracle软件,在节点2上把库的rman备份恢复到了盘柜上,sql速度也很快,所以节点2服务器、盘柜IO、各种驱动、光纤都是没有问题的。
4.在节点2重装了一个单节点的RAC,再测试同一张表,速度又下来了,所以问题应该出在asm上。
之前用的是asmlib方式管理asm设备,又改用udev方式管理asm设备,还是速度很慢,问题确认出在asm上。
关于asm,tom明确指出asm、raw、集群文件系统是没有缓存的,而文件系统是有缓存的,所以以上测试结果是正常的。
但在业务系统慢,怎么解决这个问题呢?