汉字转换拼音字头原理实践

今天照常登陆php新闻网站,看到首页的一则文字类的新闻,汉字转换拼音字头原理,闲来无事,用php实践下,把它写出来
/**
 * 汉字转换为拼音字头
 * @author jkj
 */
class HzToPyHeader
{
	//传说中的160,16进制为a0,so..
	static $BaseCode = 0xa0;
	// 国标一级汉字不同读音的起始区位码
	private $secPosValueList = array(
		1601, 1637, 1833, 2078, 2274, 2302, 2433, 2594, 2787, 3106, 3212, 3472,
		3635, 3722, 3730, 3858, 4027, 4086, 4390, 4558, 4684, 4925, 5249, 9999);
	// 国标一级汉字不同读音的起始区位码对应读音
	private $firstLetter = array(
		'a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'j', 'k', 'l', 'm', 'n', 'o', 'p',
		'q', 'r', 's', 't', 'w', 'x', 'y', 'z');
	// 区位码=字节的ASCII码-160(汉字基数),而一个汉字的区位码为字节相加值,例蒋(29,15) 2915
	// ps : 以下都以gb2312为例,一般一个汉字占2个字节,
	// 第一个字节的ASCII码-160(汉字基数)按拼音排序都在16-55之间
	function __construct(){
		
	}
	/**
	 * Hanzi section-position code
	 * 得到汉字的区位码
	 * @param string $hanzi
	 * @return array
	 */
	final function secposcode($hanzi){
		$spc = array();
		for($i=0; $i<strlen($hanzi); $i++)
		{
			$_P = ord(substr($hanzi, $i, 1))-self::$BaseCode;
			$_G = ord(substr($hanzi, ++$i, 1))-self::$BaseCode;
			if($_G<10) $_G = "0".strval($_G);
			$spc[] = strval($_P).strval($_G);
		}
		return $spc;
	}
	
	final function getFirst($hz){
		$rs = array();
		foreach ($this->secposcode($hz) as $k=>$v){
			foreach ($this->secPosValueList as $in_k=>$in_v){
				if($v>=$in_v) $rs[$k]=$this->firstLetter[$in_k];
			}
		}
		return implode("",$rs);
	}
}


$htph = new HzToPyHeader();
print_r($htph->secposcode("蒋某人"));
echo $htph->getFirst("蒋某人");


                
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值