许久没做erlang开发了,最近有网友问到erlang的问题,就抽时间看下。问题是这样的,模块有中文,将中文直接打印出来,shell下显示会出现乱码,但如果先将中文转成binary,就可以正常显示出来。
shell中文乱码问题
这里以一个简单的例子,说明下:
-module(m).
-compile(export_all).
test() ->
io:format("~ts~n", ["中国"]),
io:format("~ts~n", [list_to_binary("中国")]).
以R17之前的erlang版本编译,然后测试下结果:
Eshell V5.10.3 (abort with ^G)
1> c(m).
{ok, m}
2> m:test().
ä¸å½
中国
ok
打印下erlang汇编码,这个test函数实现如下:
{function, test, 0, 2}.
{label,1}.
{line,[{location,"erl.erl",4}]}.
{func_info,{atom,erl},{atom,test},0}.
{label,2}.
{allocate,0,0}.
{move,{literal,[[228,184,173,229,155,189]]},{x,1}}.
{move,{literal,"~ts~n"},{x,0}}.
{line,[{location,"erl.erl",5}]}.
{call_ext,2,{extfunc,io,format,2}}.
{move,{literal,[<<228,184,173,229,155,189>>]},{x,1}}.
{move,{literal,"~ts~n"},{x,0}}.
{line,[{location,"erl.erl",6}]}.
{call_ext_last,2,{extfunc,io,format,2},0}.
实际上,erlang在编译代码时会做优化。数据已知的话,list_to_binary在编译期就被优化掉了。
所以,test函数优化后如下:
test() ->
io:format("~ts~n", [[228,184,173,229,155,189]]),
io:format("~ts~n", [<<228,184,173,229,155,189>>]).
io:format/2 对中文的处理
看了 io:format/2 的实现代码,关键代码为以下两步:
1、格式化数据: io_lib:format/2