去掉多余的回车符 我们从 PDF 文件中,复制出来的文本,每一行都有一个回车符,这些回车符是多余的,不利于后续的再利用。因此,需要去掉。 手工一个个的删除,就显得力不人心了。这种事,正则表达式是最适合的了。 查找: ([\w]+[^.:]?)\r\n 替换成: \1 \1 后面要有一个空格