最近从pdf文件中拷贝论文标题的时候,发现标题中的‘f’复制出来是乱码,情况如下,复制这篇论文的标题,得到
字母
ff
变成了乱码。奇怪的是,论文中别处的字母f
有能正常显示的,个别组合,如fi
也不能正常显示。
原因在于,这样的字母组合就是所谓的连写,ligatures
。如果尝试选择连写字母,会发现他们仅仅只是一个字母(可以理解为一种符号,或者一种特殊的图片),因此经常在拷贝的过程中出错(仅想得到text
的话)。
参考
- https://stackoverflow.com/questions/20535452/why-letter-f-oftentimes-cannot-be-copied-from-text-in-pdf-files