linux下posix编程环境,局域网如何在Linux / POSIX中运行以及应用哪些转换?

我正在使用(希望)UTF-8文本的巨大文件.我可以使用Ubuntu 13.10(3.11.0-14-generic)和12.04来重现它.

在调查一个错误时,我遇到了奇怪的行为

$export LC_ALL=en_US.UTF-8

$sort part-r-00000 | uniq -d

ɥ ɨ ɞ ɧ 251

ɨ ɡ ɞ ɭ ɯ 291

ɢ ɫ ɬ ɜ 301

ɪ ɳ 475

ʈ ʂ 565

$export LC_ALL=C

$sort part-r-00000 | uniq -d

$# no duplicates found

当运行使用std :: stringstream读取文件的自定义C程序时,重复的操作也会出现 – 由于在使用en_US.UTF-8语言环境时重复的操作失败.

至少对于std :: string和input / output来说,C似乎不受影响.

为什么在使用UTF-8区域设置时找到重复项,而C语言环境中没有找到重复项?

导致此行为的文本的区域转换是什么?

编辑:Here是一个小例子

$uniq -D duplicates.small.nfc

ɢ ɦ ɟ ɧ ɹ 224

ɬ ɨ ɜ ɪ ɟ 224

ɥ ɨ ɞ ɧ 251

ɯ ɭ ɱ ɪ 251

ɨ ɡ ɞ ɭ ɯ 291

ɬ ɨ ɢ ɦ ɟ 291

ɢ ɫ ɬ ɜ 301

ɧ ɤ ɭ ɪ 301

ɹ ɣ ɫ ɬ 301

ɪ ɳ 475

ͳ ͽ 475

ʈ ʂ 565

ˈ ϡ 565

输出问题出现时的区域设置:

$locale

LANG=en_US.UTF-8

LC_CTYPE="en_US.UTF-8"

LC_NUMERIC=de_DE.UTF-8

LC_TIME=de_DE.UTF-8

LC_COLLATE="en_US.UTF-8"

LC_MONETARY=de_DE.UTF-8

LC_MESSAGES="en_US.UTF-8"

LC_PAPER=de_DE.UTF-8

LC_NAME=de_DE.UTF-8

LC_ADDRESS=de_DE.UTF-8

LC_TELEPHONE=de_DE.UTF-8

LC_MEASUREMENT=de_DE.UTF-8

LC_IDENTIFICATION=de_DE.UTF-8

LC_ALL=

编辑:归一化后使用:

cat duplicates | uconv -f utf8 -t utf8 -x nfc > duplicates.nfc

我仍然得到相同的结果

编辑:该文件是有效的UTF-8根据iconv – (从here)

$iconv -f UTF-8 duplicates -o /dev/null

$echo $?

0

它在FreeBSD上工作

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值