Erlang 中文简体字 GB2312 转 unicode 的办法(2)

最新推荐文章于 2023-03-05 11:25:02 发布

lawme

最新推荐文章于 2023-03-05 11:25:02 发布

阅读量2.5k

点赞数

文章标签： erlang 文本编辑 python shell list 语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lawme/article/details/4142730

版权

建立编码转换表，可用任何支持unicode的语言，我用的是Python。

def to_unicode():

f = open('gb2u.erl','w')

for row in range(176,248):

for col in range(1,95):

ch1 = chr(row)

ch2 = chr(col+160)

w = ch1+ch2

u=w.encode('utf8')

u=u.decode('utf8')

s='put({%s,%s},%s),/n'%(str(row),str(col+160),str(ord(u)))

f.write(s)

f.close()

这里唠叨点编码常识。

常见GB2312属于区位码的说法。“区位”其实就是二维数组，“区”对应“行”row，“位”对应“列”col。

汉字编码的第一字节是行号，第二字节是列号，它们的编码值减去160后，就看出来了。

for row in range(176,248) 这里的176-160=16，即码表的第16区（行），248-160-1=87，第87区（行）。

for col in range(1,95) 每一区（行）有94个汉字（好像第55区少5个）。表示第二字节时，编码要加上160。

unicode是怎样一回事？下面是我的理解，也可能是胡说八道。

unicode编码是个逻辑概念，utf8,utf16,utf32,是其物理实现。

例如，在Erlang中：

3> S=unicode:characters_to_list("中国").

[20013,22269]

4> unicode:characters_to_binary(S).

<<228,184,173,229,155,189>>

5>

列表[]中是2个unicode编码，它们在内存中的实际表示是<<>>中的6个字节。

好了，继续说上面的程序。运行后，它生成文件 gb2u.erl，约有150KB大小，内容是：

put({176,161},21834),

put({176,162},38463),

put({176,163},22467),

……

put({247,254},40772),

在文本编辑器中修改它：

-module(gb2u).

-export([start/0,get_unicode/2]).

get_unicode([],U) -> lists:reverse(U);

get_unicode([A|T],U) when A < 128 ->

get_unicode(T,[A|U]);

get_unicode([A,B|Z],U) ->

H = get({A,B}),

get_unicode(Z,[H|U]).

start() ->

put({176,161},21834),

put({176,162},38463),

put({176,163},22467),

……

put({247,254},40772).

注意最后一行的结尾句号。

在OS的shell中，erlc gb2u.erl 编译成 gb2u.beam，可由其他模块调用了。

调用模块gb2u，还有些说道，下次接着聊。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Erlang 中文简体字 GB2312 转 unicode 的办法(2)

建立编码转换表，可用任何支持unicode的语言，我用的是Python。def to_unicode(): f = open(gb2u.erl,w) for row in range(176,248): for col in range(1,95): ch1 = chr(row) ch2 = ch
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。