Linux on Power性能调优

 原贴地址:http://blog.chinaunix.net/u/30686/showart.php?id=347162
Linux on Power性能调优
 
 
  •   本文将从 Linux 系统的特性和Power架构自身的优势谈起,概略性的讲解如何在Power上更好的使用Linux系统,如何优化Linux on Power,以求带给我们的客户更大的使用价值。

IBM系统与科技事业部OpenPower系统工程师 李建文

2004年,IBM高调推出了OpenPower 服务器 产 品系列,进一步完善了自己的Linux产品线,旨在让开放源码的Linux操作系统能够更加可靠高效的进行在Power平台上。本文将从Linux系统的 特性和Power架构自身的优势谈起,概略性的讲解如何在Power上更好的使用Linux系统,如何优化Linux on Power,以求带给我们的客户更大的使用价值。

在整个IBM的产品战略中Linux占有举足轻重的作用。IBM目前拥有五大硬件构架: System z、System i、System p、System x以及System storage,五大软件品牌:WebSphere、DB2、Lotus、Tivoli、Rational,在这样一个异构的环境中,Linux可以相对 简洁的提供一个同构的操作系统层,从而能够向广大的合作伙伴和独立软件开发商提供一个技术整合和商业整合的平台。

经过开源界不断的努力,Linux事实上也被证明是解决目前日益复杂的IT应用的一剂良药, 它能够支持几十种截然不同的硬件架构,本身优秀的Unix血统又使之非常适合作为软件研发的底层平台。IBM也正是看到了这些Linux的特性,才决心在 自己的全线产品中支持Linux,并向我们的合作伙伴推荐这个操作系统平台。

对Linux的支持上,除了人所共知的基于X86及其衍生CPU构架的IBM X系统服务器以外,IBM P系统服务器也能非常好的支持Linux操作系统及其相关软件。IBM Power平台在产生之初就考虑到是为高性能计算和高商业负载运行而设计的。在IBM与RedHat、Novell SUSE、RedFlag、Turbo等Linux厂商合作研发之后,Linux on Power平台更趋完善可用,性能也更趋优越,下面我们就主要来探讨Linux on Power上的性能调试技术。

一。性能调优的层次

对于一个应用系统来说,可以进行性能调整的层次很多。

从系统调用的层次上来说,首先应该是应用层,即应用开发者使用C、C++、Java、SQL等等开发语言和相关开发 工具 开发客户的应用程序,使用高效的开发类库、优化算法,避免各类已知的开发错误,在应用层优化是最能够提高性能的一个办法。

接下来就有可能在中间件层进行优化,对应用服务器如WebSphere及数据库管理系统如DB2进行优化,调整连接池或者内存区进行优化。

再下来则应该是对操作系统如Linux进行优化,除了在客户应用层面会反映出性能问题(如常常连接超时,没有在有效 时间 内返回正确结果)以外,在操作系统的监控终端上我们也能够发现性能问题(如CPU运行100%,内存消耗殆尽)。虽然所有这些问题并不一定是操作系统本身的的问题,但是通过操作系统,我们能够感知系统的性能问题,并为下一步的解决提供线索。

最后有可能需要对硬件构架进行调整,以适应整个应用系统的性能要求。

下面根据我们的经验,简要列出一些应用系统在出现性能问题时的组件。

从应用开发的角度来划分性能问题的解决的途径,那么第一应该是系统设计阶段就重视性能问题,仔细斟酌客户对性能的要求,选择合适的应用系统构架以应对性能问题。

在应用程序开发阶段,严密监控开发流程,使用优秀的算法和工具,避免 未来 的性能损失。

尽可能早的进入到性能测试阶段,找到问题关键,合力解决问题。

二。Linux on Power性能分析工具

当在应用层次我们已经经过艰苦的努力,提高了应用程序的性能,接下来就要聚焦在Linux操作系统和Power硬件平台上调整性能。在设法调整之前,我们需要一系统的监控工具告诉我们性能的瓶颈在哪里。下面就简要列出Linux on Power上的性能分析工具和命令。

CPU性能分析工具:

vmstat

ps

sar

time

strace

pstree

top

Memory性能分析工具:

vmstat

strace

top

ipcs

ipcrm

cat /proc/meminfo

cat /proc/slabinfo

cat /proc/<pid #>/maps

I/O性能分析工具:

vmstat

ipstat

repquota

quotacheck

Network性能分析工具:

ifconfig

ethereal

tethereal

iptraf

iwconfig

nfsstat

mrtg

ntop

netstat

cat /proc/sys/net

三。Linux on Power性能调优工具

当通过上述工具及命令,我们发现了应用的性能瓶颈以后,我们可以通过以下工具或者命令来进行性能的调整。

CPU性能调优工具:

nice / renic

sysctl

Memory性能调优工具:

swapon

ulimit

sysctl

I/O性能调优工具:

edquota

quoton

sysctl

boot line:

elevator= <ioscheduler>

Network性能调优工具:

ifconfig

iwconfig

sysctl

四。CPU性能调整

当一个系统的CPU空闲时间或者等待时间小于5%时,我们就可以认为系统的CPU资源耗尽,我们应该对CPU进行性能调整。

CPU性能调整方法:

1。减少 工作 负载,选择合适的运行级。

# vi /etc/inittab

# Default runlevel. The runlevels used by RHS are:

# 0 - halt (Do NOT set initdefault to this)

# 1 - Single user mode

# 2 - Multiuser, without NFS (The same as 3, if you do not have networking)

# 3 - Full multiuser mode

# 4 - unused

# 5 - X11

# 6 - reboot (Do NOT set initdefault to this)

#

id:5:initdefault:

2。关闭非核心的服务进程。

使用如下命令关闭非核心的服务守护进程。

命令形式:#chkconfig [--level levels] name <on/off/reset>

# chkconfig --list talk

talk on

# chkconfig talk off

# chkconfig --list talk

talk off

命令形式:# service [ service_name ] <start|stop|restart|condrestart|status|panic|save>

# service sshd status

sshd (pid 29927 28946 23589) is running...

# service sshd stop

3。关闭增加型加密Linux特性,在/etc/yaboot.conf文件中让selinux=0。

#vi /etc/yaboot.conf

image=/vmlinuz-2.6.9-11.EL

label=linux

read-only

initrd=/initrd-2.6.9-11.EL.img

root=/dev/VolGroup00/LogVol00

append="selinux=0 rhgb quiet"

4。编辑/proc/sys/kernel/中的文件,修改内核参数。

#cd /proc/sys/kernel/

# ls /proc/sys/kernel/

acct hotplug panic real-root-dev

cad_pid modprobe panic_on_oops sem

cap-bound msgmax pid_max shmall

core_pattern msgmnb powersave-nap shmmax

core_uses_pid msgmni print-fatal-signals shmmni

ctrl-alt-del ngroups_max printk suid_dumpable

domainname osrelease printk_ratelimit sysrq

exec-shield ostype printk_ratelimit_burst tainted

exec-shield-randomize overflowgid pty threads-max

hostname overflowuid random version

一般可能需要编辑的是pid_max和threads-max,如下:

# sysctl kernel.threads-max

kernel.threads-max = 8192

# sysctl kernel.threads-max=10000

kernel.threads-max = 10000

5。关闭SMT功能。

一般而言,POWER的SMT(Simultaneous Multi-Threading)功能是有利于大多数 程序 的一个POWER默认功能,且默认是打开的。但在一些高性能计算中,几乎所有的资源被一个线程所使用,这时可以尝试关闭SMT功能,在/etc/yaboot.conf文件中加入smt-enabled=off。

[root@p615a kernel]# more /etc/yaboot.conf

image=/vmlinuz-2.6.9-11.EL

label=linux

read-only

initrd=/initrd-2.6.9-11.EL.img

root=/dev/VolGroup00/LogVol00

append="smt-enabled=off rhgb quiet"

6。绑定IRQ到某一个进程。

7。应用级调优简述。

调优工具有oprofile/gprof;

编译器gcc选项:-o<1/2/3/5> –mcpu=power5,或者直接选择IBM的XL C/C++编译器;

FDPR-Pro后连接优化等。

五。Memory性能调整

当一个应用系统的 内存 资源出现下面的情况时,我们认为需要进行Memory性能调整:

页面频繁换进换出;

缺少非活动页。

例如在使用vmstat命令时发现,memory的cache使用率非常低,而swap的si或者so则有比较高的数据值时,应该警惕内存的性能问题。

Memory性能调整方法:

1。关闭非核心的服务进程。

相关的方法请见CPU性能调整部分。

2。修改/proc/sys/vm/下的系统参数。

# ls /proc/sys/vm/

block_dump laptop_mode nr_pdflush_threads

dirty_background_ratio legacy_va_layout overcommit_memory

dirty_expire_centisecs lower_zone_protection overcommit_ratio

dirty_ratio max_map_count page-cluster

dirty_writeback_centisecs min_free_kbytes swappiness

hugetlb_shm_group nr_hugepages vfs_cache_pressure

# sysctl vm.min_free_kbytes

vm.min_free_kbytes = 1024

# sysctl -w vm.min_free_kbytes=2508

vm.min_free_kbytes = 2508

# cat /etc/sysctl.conf

vm.min_free_kbytes=2058

3。配置系统的swap交换分区等于或者2倍于物理内存。

# free

total used free shared buffers cached

Mem: 987656 970240 17416 0 63324 742400

-/+ buffers/cache: 164516 823140

Swap: 1998840 150272 1848568

六。I/O性能调整

系统出现以下情况时,我们认为该系统存在I/O性能问题:

系统等待I/O的时间超过50%;

一个设备的平均队列长度大于5。

我们可以通过诸如vmstat等命令,查看CPU的wa等待时间,以得到系统是否存在I/O性能问题的准确 信息 。

I/O性能调整方法:

1。修改I/O调度算法。

Linux已知的I/O调试算法有4种:

deadline - Deadline I/O scheduler

as - Anticipatory I/O scheduler

cfq - Complete Fair Queuing scheduler

noop - Noop I/O scheduler

可以编辑/etc/yaboot.conf文件修改参数elevator得到。

# vi /etc/yaboot.conf

image=/vmlinuz-2.6.9-11.EL

label=linux

read-only

initrd=/initrd-2.6.9-11.EL.img

root=/dev/VolGroup00/LogVol00

append="elevator=cfq rhgb quiet"

2。文件系统调整。

对于文件系统的调整,有几个公认的准则:

将I/O负载相对平均的分配到所有可用的磁盘上;

选择合适的文件系统,Linux内核支持reiserfs、ext2、ext3、jfs、xfs等文件系统;

# mkfs -t reiserfs -j /dev/sdc1

文件系统即使在建立后,本身也可以通过命令调优;

tune2fs (ext2/ext3)

reiserfstune (reiserfs)

jfs_tune (jfs)

3。文件系统Mount时可加入选项noatime、nodiratime。

# vi /etc/fstab

/dev/sdb1 /backup reiserfs acl, user_xattr, noatime, nodiratime 1 1

4。调整块设备的READAHEAD,调大RA值。

[root@overflowuid ~]# blockdev --report

RO RA SSZ BSZ StartSec Size Device

rw 256 512 4096 0 71096640 /dev/sdb

rw 256 512 4096 32 71094240 /dev/sdb1

[root@overflowuid ~]# blockdev --setra 2048 /dev/sdb1

[root@overflowuid ~]# blockdev --report

RO RA SSZ BSZ StartSec Size Device

rw 2048 512 4096 0 71096640 /dev/sdb

rw 2048 512 4096 32 71094240 /dev/sdb1

七。Network性能调整

一个应用系统出现如下情况时,我们认为该系统存在 网络 性能问题:

网络接口的吞吐量小于期望值;

出现大量的丢包现象;

出现大量的冲突现象。

Network性能调整方法:

1。调整网卡的参数。

# ethtool eth0

Settings for eth0:

Supported ports: [ TP ]

Supported link modes: 10baseT/Half 10baseT/Full

100baseT/Half 100baseT/Full

1000baseT/Full

Supports auto-negotiation: Yes

Advertised link modes: 10baseT/Half 10baseT/Full

100baseT/Half 100baseT/Full

1000baseT/Full

Advertised auto-negotiation: Yes

Speed: 100Mb/s

Duplex: Half

Port: Twisted Pair

PHYAD: 0

Transceiver: internal

Auto-negotiation: on

Supports Wake-on: d

Wake-on: d

Current message level: 0x00000007 (7)

Link detected: yes

#ethtool -s eth0 duplex full

#ifconfig eth0 mtu 9000 up

2。增加网络缓冲区和包的队列。

# cat /proc/sys/net/ipv4/tcp_mem

196608 262144 393216

# cat /proc/sys/net/core/rmem_default

135168

# cat /proc/sys/net/core/rmem_max

131071

# cat /proc/sys/net/core/wmem_default

135168

# cat /proc/sys/net/core/wmem_max

131071

# cat /proc/sys/net/core/optmem_max

20480

# cat /proc/sys/net/core/netdev_max_backlog

300

# sysctl net.core.rmem_max

net.core.rmem_max = 131071

# sysctl -w net.core.rmem_max=135168

net.core.rmem_max = 135168

3。调整Webserving。

# sysctl net.ipv4.tcp_tw_reuse

net.ipv4.tcp_tw_reuse = 0

# sysctl -w net.ipv4.tcp_tw_reuse=1

net.ipv4.tcp_tw_reuse = 1

# sysctl net.ipv4.tcp_tw_recycle

net.ipv4.tcp_tw_recycle = 0

# sysctl -w net.ipv4.tcp_tw_recycle=1

net.ipv4.tcp_tw_recycle = 1洪文锋

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值