我正在使用(希望)UTF-8文本的巨大文件.我可以使用Ubuntu 13.10(3.11.0-14-generic)和12.04来重现它.
在调查一个错误时,我遇到了奇怪的行为
$export LC_ALL=en_US.UTF-8
$sort part-r-00000 | uniq -d
ɥ ɨ ɞ ɧ 251
ɨ ɡ ɞ ɭ ɯ 291
ɢ ɫ ɬ ɜ 301
ɪ ɳ 475
ʈ ʂ 565
$export LC_ALL=C
$sort part-r-00000 | uniq -d
$# no duplicates found
当运行使用std :: stringstream读取文件的自定义C程序时,重复的操作也会出现 – 由于在使用en_US.UTF-8语言环境时重复的操作失败.
至少对于std :: string和input / output来说,C似乎不受影响.
为什么在使用UTF-8区域设置时找到重复项,而C语言环境中没有找到重复项?
导致此行为的文本的区域转换是什么?
编辑:Here是一个小例子
$uniq -D duplicates.small.nfc
ɢ ɦ ɟ ɧ ɹ 224
ɬ ɨ ɜ ɪ ɟ 224
ɥ ɨ ɞ ɧ 251
ɯ ɭ ɱ ɪ 251
ɨ ɡ ɞ ɭ ɯ 291
ɬ ɨ ɢ ɦ ɟ 291
ɢ ɫ ɬ ɜ 301
ɧ ɤ ɭ ɪ 301
ɹ ɣ ɫ ɬ 301
ɪ ɳ 475
ͳ ͽ 475
ʈ ʂ 565
ˈ ϡ 565
输出问题出现时的区域设置:
$locale
LANG=en_US.UTF-8
LC_CTYPE="en_US.UTF-8"
LC_NUMERIC=de_DE.UTF-8
LC_TIME=de_DE.UTF-8
LC_COLLATE="en_US.UTF-8"
LC_MONETARY=de_DE.UTF-8
LC_MESSAGES="en_US.UTF-8"
LC_PAPER=de_DE.UTF-8
LC_NAME=de_DE.UTF-8
LC_ADDRESS=de_DE.UTF-8
LC_TELEPHONE=de_DE.UTF-8
LC_MEASUREMENT=de_DE.UTF-8
LC_IDENTIFICATION=de_DE.UTF-8
LC_ALL=
编辑:归一化后使用:
cat duplicates | uconv -f utf8 -t utf8 -x nfc > duplicates.nfc
我仍然得到相同的结果
编辑:该文件是有效的UTF-8根据iconv – (从here)
$iconv -f UTF-8 duplicates -o /dev/null
$echo $?
0
它在FreeBSD上工作