php在gbk编码下繁体与简体互转函数

php在gbk编码下繁体与简体互转函数

<?php

$simple =
"台号皑蔼碍爱翱袄奥坝罢摆败颁办绊帮绑镑谤剥饱宝报鲍辈贝钡狈备惫绷笔毕毙闭边编贬变辩辫鳖瘪濒滨宾摈饼拨钵铂驳卜补参蚕残惭惨灿苍舱仓沧厕侧册测层诧搀掺蝉馋谗缠铲产阐颤场尝长偿肠厂畅钞车彻尘陈衬撑称惩诚骋痴迟驰耻齿炽冲虫宠畴踌筹绸丑橱厨锄雏础储触处传疮闯创锤纯绰辞词赐聪葱囱从丛凑窜错达带贷担单郸掸胆惮诞弹当挡党荡档捣岛祷导盗灯邓敌涤递缔点垫电淀钓调迭谍叠钉顶锭订东动栋冻斗犊独读赌镀锻断缎兑队对吨顿钝夺鹅额讹恶饿儿尔饵贰发罚阀珐矾钒烦范贩饭访纺飞废费纷坟奋愤粪丰枫锋风疯冯缝讽凤肤辐抚辅赋复负讣妇缚该钙盖干赶秆赣冈刚钢纲岗皋镐搁鸽阁铬个给龚宫巩贡钩沟构购够蛊顾剐关观馆惯贯广规硅归龟闺轨诡柜贵刽辊滚锅国过骇韩汉阂鹤贺横轰鸿红后壶护沪户哗华画划话怀坏欢环还缓换唤痪焕涣黄谎挥辉毁贿秽会烩汇讳诲绘荤浑伙获货祸击机积饥讥鸡绩缉极辑级挤几蓟剂济计记际继纪夹荚颊贾钾价驾歼监坚笺间艰缄茧检碱硷拣捡简俭减荐槛鉴践贱见键舰剑饯渐溅涧浆蒋桨奖讲酱胶浇骄娇搅铰矫侥脚饺缴绞轿较秸阶节茎惊经颈静镜径痉竞净纠厩旧驹举据锯惧剧鹃绢杰洁结诫届紧锦仅谨进晋烬尽劲荆觉决诀绝钧军骏开凯颗壳课垦恳抠库裤夸块侩宽矿旷况亏岿窥馈溃扩阔蜡腊莱来赖蓝栏拦篮阑兰澜谰揽览懒缆烂滥捞劳涝乐镭垒类泪篱离里鲤礼丽厉励砾历沥隶俩联莲连镰怜涟帘敛脸链恋炼练粮凉两辆谅疗辽镣猎临邻鳞凛赁龄铃凌灵岭领馏刘龙聋咙笼垄拢陇楼娄搂篓芦卢颅庐炉掳卤虏鲁赂禄录陆驴吕铝侣屡缕虑滤绿峦挛孪滦乱抡轮伦仑沦纶论萝罗逻锣箩骡骆络妈玛码蚂马骂吗买麦卖迈脉瞒馒蛮满谩猫锚铆贸么霉没镁门闷们锰梦谜弥觅绵缅庙灭悯闽鸣铭谬谋亩钠纳难挠脑恼闹馁腻撵捻酿鸟聂啮镊镍柠狞宁拧泞钮纽脓浓农疟诺欧鸥殴呕沤盘庞国爱赔喷鹏骗飘频贫苹凭评泼颇扑铺朴谱脐齐骑岂启气弃讫牵扦钎铅迁签谦钱钳潜浅谴堑枪呛墙蔷强抢锹桥乔侨翘窍窃钦亲轻氢倾顷请庆琼穷趋区躯驱龋颧权劝却鹊让饶扰绕热韧认纫荣绒软锐闰润洒萨鳃赛伞丧骚扫涩杀纱筛晒闪陕赡缮伤赏烧绍赊摄慑设绅审婶肾渗声绳胜圣师狮湿诗尸时蚀实识驶势释饰视试寿兽枢输书赎属术树竖数帅双谁税顺说硕烁丝饲耸怂颂讼诵擞苏诉肃虽绥岁孙损笋缩琐锁獭挞抬摊贪瘫滩坛谭谈叹汤烫涛绦腾誊锑题体屉条贴铁厅听烃铜统头图涂团颓蜕脱鸵驮驼椭洼袜弯湾顽万网韦违围为潍维苇伟伪纬谓卫温闻纹稳问瓮挝蜗涡窝呜钨乌诬无芜吴坞雾务误锡牺袭习铣戏细虾辖峡侠狭厦锨鲜纤咸贤衔闲显险现献县馅羡宪线厢镶乡详响项萧销晓啸蝎协挟携胁谐写泻谢锌衅兴汹锈绣虚嘘须许绪续轩悬选癣绚学勋询寻驯训讯逊压鸦鸭哑亚讶阉烟盐严颜阎艳厌砚彦谚验鸯杨扬疡阳痒养样瑶摇尧遥窑谣药爷页业叶医铱颐遗仪彝蚁艺亿忆义诣议谊译异绎荫阴银饮樱婴鹰应缨莹萤营荧蝇颖哟拥佣痈踊咏涌优忧邮铀犹游诱舆鱼渔娱与屿语吁御狱誉预驭鸳渊辕园员圆缘远愿约跃钥岳粤悦阅云郧匀陨运蕴酝晕韵杂灾载攒暂赞赃脏凿枣灶责择则泽贼赠扎札轧铡闸诈斋债毡盏斩辗崭栈战绽张涨帐账胀赵蛰辙锗这贞针侦诊镇阵挣睁狰帧郑证织职执纸挚掷帜质钟终种肿众诌轴皱昼骤猪诸诛烛瞩嘱贮铸筑驻专砖转赚桩庄装妆壮状锥赘坠缀谆浊兹资渍踪综总纵邹诅组钻致钟么为只凶准启板里雳余链泄";
$complex =
"臺號皚藹礙愛翺襖奧壩罷擺敗頒辦絆幫綁鎊謗剝飽寶報鮑輩貝鋇狽備憊繃筆畢斃閉邊編貶變辯辮鼈癟瀕濱賓擯餅撥缽鉑駁蔔補參蠶殘慚慘燦蒼艙倉滄廁側冊測層詫攙摻蟬饞讒纏鏟産闡顫場嘗長償腸廠暢鈔車徹塵陳襯撐稱懲誠騁癡遲馳恥齒熾沖蟲寵疇躊籌綢醜櫥廚鋤雛礎儲觸處傳瘡闖創錘純綽辭詞賜聰蔥囪從叢湊竄錯達帶貸擔單鄲撣膽憚誕彈當擋黨蕩檔搗島禱導盜燈鄧敵滌遞締點墊電澱釣調叠諜疊釘頂錠訂東動棟凍鬥犢獨讀賭鍍鍛斷緞兌隊對噸頓鈍奪鵝額訛惡餓兒爾餌貳發罰閥琺礬釩煩範販飯訪紡飛廢費紛墳奮憤糞豐楓鋒風瘋馮縫諷鳳膚輻撫輔賦複負訃婦縛該鈣蓋幹趕稈贛岡剛鋼綱崗臯鎬擱鴿閣鉻個給龔宮鞏貢鈎溝構購夠蠱顧剮關觀館慣貫廣規矽歸龜閨軌詭櫃貴劊輥滾鍋國過駭韓漢閡鶴賀橫轟鴻紅後壺護滬戶嘩華畫劃話懷壞歡環還緩換喚瘓煥渙黃謊揮輝毀賄穢會燴彙諱誨繪葷渾夥獲貨禍擊機積饑譏雞績緝極輯級擠幾薊劑濟計記際繼紀夾莢頰賈鉀價駕殲監堅箋間艱緘繭檢堿鹼揀撿簡儉減薦檻鑒踐賤見鍵艦劍餞漸濺澗漿蔣槳獎講醬膠澆驕嬌攪鉸矯僥腳餃繳絞轎較稭階節莖驚經頸靜鏡徑痙競淨糾廄舊駒舉據鋸懼劇鵑絹傑潔結誡屆緊錦僅謹進晉燼盡勁荊覺決訣絕鈞軍駿開凱顆殼課墾懇摳庫褲誇塊儈寬礦曠況虧巋窺饋潰擴闊蠟臘萊來賴藍欄攔籃闌蘭瀾讕攬覽懶纜爛濫撈勞澇樂鐳壘類淚籬離裏鯉禮麗厲勵礫曆瀝隸倆聯蓮連鐮憐漣簾斂臉鏈戀煉練糧涼兩輛諒療遼鐐獵臨鄰鱗凜賃齡鈴淩靈嶺領餾劉龍聾嚨籠壟攏隴樓婁摟簍蘆盧顱廬爐擄鹵虜魯賂祿錄陸驢呂鋁侶屢縷慮濾綠巒攣孿灤亂掄輪倫侖淪綸論蘿羅邏鑼籮騾駱絡媽瑪碼螞馬罵嗎買麥賣邁脈瞞饅蠻滿謾貓錨鉚貿麽黴沒鎂門悶們錳夢謎彌覓綿緬廟滅憫閩鳴銘謬謀畝鈉納難撓腦惱鬧餒膩攆撚釀鳥聶齧鑷鎳檸獰甯擰濘鈕紐膿濃農瘧諾歐鷗毆嘔漚盤龐國愛賠噴鵬騙飄頻貧蘋憑評潑頗撲鋪樸譜臍齊騎豈啓氣棄訖牽扡釺鉛遷簽謙錢鉗潛淺譴塹槍嗆牆薔強搶鍬橋喬僑翹竅竊欽親輕氫傾頃請慶瓊窮趨區軀驅齲顴權勸卻鵲讓饒擾繞熱韌認紉榮絨軟銳閏潤灑薩鰓賽傘喪騷掃澀殺紗篩曬閃陝贍繕傷賞燒紹賒攝懾設紳審嬸腎滲聲繩勝聖師獅濕詩屍時蝕實識駛勢釋飾視試壽獸樞輸書贖屬術樹豎數帥雙誰稅順說碩爍絲飼聳慫頌訟誦擻蘇訴肅雖綏歲孫損筍縮瑣鎖獺撻擡攤貪癱灘壇譚談歎湯燙濤縧騰謄銻題體屜條貼鐵廳聽烴銅統頭圖塗團頹蛻脫鴕馱駝橢窪襪彎灣頑萬網韋違圍爲濰維葦偉僞緯謂衛溫聞紋穩問甕撾蝸渦窩嗚鎢烏誣無蕪吳塢霧務誤錫犧襲習銑戲細蝦轄峽俠狹廈鍁鮮纖鹹賢銜閑顯險現獻縣餡羨憲線廂鑲鄉詳響項蕭銷曉嘯蠍協挾攜脅諧寫瀉謝鋅釁興洶鏽繡虛噓須許緒續軒懸選癬絢學勳詢尋馴訓訊遜壓鴉鴨啞亞訝閹煙鹽嚴顔閻豔厭硯彥諺驗鴦楊揚瘍陽癢養樣瑤搖堯遙窯謠藥爺頁業葉醫銥頤遺儀彜蟻藝億憶義詣議誼譯異繹蔭陰銀飲櫻嬰鷹應纓瑩螢營熒蠅穎喲擁傭癰踴詠湧優憂郵鈾猶遊誘輿魚漁娛與嶼語籲禦獄譽預馭鴛淵轅園員圓緣遠願約躍鑰嶽粵悅閱雲鄖勻隕運蘊醞暈韻雜災載攢暫贊贓髒鑿棗竈責擇則澤賊贈紮劄軋鍘閘詐齋債氈盞斬輾嶄棧戰綻張漲帳賬脹趙蟄轍鍺這貞針偵診鎮陣掙睜猙幀鄭證織職執紙摯擲幟質鍾終種腫衆謅軸皺晝驟豬諸誅燭矚囑貯鑄築駐專磚轉賺樁莊裝妝壯狀錐贅墜綴諄濁茲資漬蹤綜總縱鄒詛組鑽緻鐘麼為隻兇準啟板裡靂餘鍊洩";

function comtosim($txt){ //繁体转简体
 global $simple,$complex;
 $com = '';
 $ii = mb_strlen($txt,"GBK");
 for ($i=0;$i<$ii;$i++ ) {
  if (indexOf(trim($complex),charAt($txt,$i))!=false ){ //判断 汉字是否在繁体字表中
   $a2 = mb_substr(trim($simple),mb_strpos(trim($complex),charAt($txt,$i)));
   $com .= mb_substr($a2,0,1,'GB2312');
  }else{
   $com .=charAt($txt,$i);
  }
 }
 return $com;
}

function simtocom($txt){ //简体转繁体
 global $simple,$complex;
 $com = '';
 $ii = mb_strlen($txt,"GB2312");
 for ($i=0;$i<$ii;$i++ ) {
  if (indexOf2(trim($simple),charAt($txt,$i))!=false ){ //判断 汉字是否在简体字表中
   $com .=charAt(trim($complex),indexOf2( trim($simple),charAt($txt,$i) )    );
  }else{
   $com .=charAt($txt,$i);
  }
 }
 return $com;
}
function indexOf($sorce,$chinese){return(mb_strpos($sorce,$chinese,null,"GBK"));}
function indexOf2($sorce,$chinese) {return (@mb_strpos($sorce,$chinese,null,"GB2312") );}
function charAt($sorce,$numpos){return (mb_substr($sorce,$numpos,1,"GBK") );}

echo simtocom('这两个函数简单,可是让我摸索了一天,php0汉字处理和字符串处理编码模式不同
例如,当我们使用strlen 这个函数 获得汉字的长度的时候 例如这个汉字串“我爱中国”
那么它返回的将是8个,而不是4个当我们希望得到4个的时候,我们就必须借用加前缀的mb_函数了
他的意思是多字节字符处理函数,此类函数的参数的最后一参数为,编码模式dfgaqergjym@#*&(@*#(*&(^$*&@');
echo '<br><br>';
echo comtosim('這兩個函數簡單,可是讓我摸索了一天,php0漢字處理和字符串處理編碼模式不同例如,當我們使用strlen 這個函數 獲得漢字的長度的時候 例如這個漢字串“我愛中國” 那麽它返回的將是8個,而不是4個當我們希望得到4個的時候,我們就必須借用加前綴的mb_函數了他的意思是多字節字符處理函數,此類函數的參數的最後一參數為,編碼模式dfgaqergjym@#*&(@*#(*&(^$*&@');

?>

以前发布了一个在utf-8编码下的php简体与繁体互转的,都是网上收集了各大神们的

http://blog.csdn.net/lose_ever/article/details/8026979


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: GBK和UTF-8是两种不同的字符编码方式,GBK是中国的编码方式,而UTF-8是一种国际通用的编码方式。在实际开发过程中,由于不同平台和程序使用的编码方式不同,会出现需要进行GBK和UTF-8之间的互转的情况。 在C语言中,实现GBK和UTF-8的互转,可以使用iconv函数。iconv函数是一个系统函数,用于进行字符编码的转换。在进行转换的时候,需要提供源编码和目标编码,同时也需要传入需要进行转换的字符串和字符串的长度。 具体的实现过程如下: 1. 获取需要转换的字符串和字符串的长度。 2. 定义iconv_t类型的变量,用于存储转换方式。 3. 调用iconv_open函数,打开转换方式,获取iconv_t类型的变量。 4. 定义一个用于存储转换后字符串的char数组和数组长度。 5. 调用iconv函数,将源编码的字符串转换为目标编码的字符串。 6. 关闭iconv_t类型的变量。 7. 返回转换后的字符串。 下面是一个简单的示例代码: ``` #include <iconv.h> #include <stdio.h> #include <stdlib.h> #include <string.h> int main(int argc, char *argv[]) { char gbk_str[100] = "这是一个GBK编码的字符串"; char utf8_str[100] = {0}; char *inbuf = gbk_str; char *outbuf = utf8_str; size_t inlen = strlen(gbk_str); size_t outlen = strlen(utf8_str); iconv_t ic = iconv_open("utf-8","gbk"); if(ic == (iconv_t)-1) { perror("iconv_open"); exit(1); } int ret = iconv(ic, &inbuf, &inlen, &outbuf, &outlen); if(ret == -1) { perror("iconv"); exit(1); } printf("gbk_str: %s\nutf8_str: %s\n", gbk_str, utf8_str); iconv_close(ic); return 0; } ``` 这段代码将一个GBK编码的字符串转换为UTF-8编码的字符串,最终输出转换后的字符串。可以看到,使用iconv函数可以非常方便地进行编码的转换。 ### 回答2: GBK和UTF-8是两种常见的字符编码方式,它们的字节长度和编码规则不同。如何进行互转呢?我们可以通过C语言实现。 首先,需要了解GBK和UTF-8编码的规则。GBK是双字节编码,每个字符占用2个字节,而UTF-8是变长编码,每个字符的字节长度不同,最长可达4个字节。 其次,需要用C语言写出转换函数。以将GBK转为UTF-8为例,可按如下步骤进行: 1. 定义两个指针,一个指向源字符串GBK,一个指向目标字符串UTF-8。 2. 使用循环遍历GBK字符串中的每个字符。 3. 如果字符的高位为0,表示该字符为ASCII字符,将该字符直接复制到UTF-8字符串中。 4. 如果字符的高位为1,表示该字符为汉字或其他非ASCII字符,需要将该字符转为UTF-8编码。 5. 将该字符的二进制形式转为Unicode编码,再根据以下规则将Unicode编码转为UTF-8编码: - 对于1字节的UTF-8编码,Unicode编码的范围为U+0000~U+007F; - 对于2字节的UTF-8编码,Unicode编码的范围为U+0080~U+07FF; - 对于3字节的UTF-8编码,Unicode编码的范围为U+0800~U+FFFF; - 对于4字节的UTF-8编码,Unicode编码的范围为U+10000~U+10FFFF。 6. 将得到的UTF-8编码复制到目标字符串UTF-8中,并移动目标字符串指针。 7. 循环结束后,在目标字符串UTF-8的末尾添加一个\0字符,表示字符串的结束。 最后,我们需要注意转换时可能会出现一些错误,如GBK字符串中包含非法字符等。因此,在实现时需要对这些情况进行判断和处理。 总的来说,通过以上步骤,我们就能够将GBK字符串转为UTF-8编码的字符串了。同样的,我们也可以实现将UTF-8字符串转为GBK编码函数。 ### 回答3: GBK与UTF-8是两种编码格式,GBK适用于汉字编码,UTF-8适用于多语言编码。想要在C语言中进行互转需要先了解一些基本操作。 UTF-8编码格式使用变长字节,一个字符可以由1-4个字节组成,其中第一个字节有特殊标记来表示后面有几个字节是该字符的一部分。而GBK编码格式每个汉字占两个字节。 在C语言中可以使用stdlib.h库函数中的mbstowcs()和wcstombs()来进行编码转换。mbstowcs()函数可以将一个字符串转换为宽字符数组,wcstombs()函数可以将宽字符数组转换为字符串。 将GBK编码格式的字符串转换为UTF-8格式需要进行如下操作: 1. 使用mbstowcs()函数GBK字符串转换为宽字符数组。 2. 遍历宽字符数组,使用wcstombs()函数将每个宽字符(即一个汉字或一个英文字母)转换为UTF-8格式的字节。 3. 将所有转换后的字节组合成一个字符串即为UTF-8格式的字符串。 将UTF-8编码格式的字符串转换为GBK格式也需要进行类似的操作: 1. 使用mbstowcs()函数将UTF-8字符串转换为宽字符数组。 2. 遍历宽字符数组,使用wcstombs()函数将每个宽字符(即一个汉字或一个英文字母)转换为GBK格式的字节。 3. 将所有转换后的字节组合成一个字符串即为GBK格式的字符串。 需要注意的是,在进行编码转换时可能会出现一些字符无法转换的问题,处理方式可以选择忽略该字符或将该字符替换为一个特定字符。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值