上一篇发布了一个小说,原文是PDF。
为了发布到csdn博客中,用工具转成了txt文本,但是由于本来PDF的篇幅限制,后来转换出来的txt也是和PDF排版一样的文本。
截图:
抱歉,分辨率太高啦。
然后转换成了txt之后。
那么,问题来了。(不是挖掘机学校哪家强)
PDF的可以接受,那么文本的也是半句话就回车,那么就无法直视了。
现在要编辑,那么这么多,一行一行的去删回车,很不方便,然后又想到了文本编辑,替换特殊字符。但是比较笨,没有找到怎么操作。
最后的最后,暴露了本性,写了一段代码解决的。
然后上代码。
public static void main(String [] args) {
File f = new File("/Users/gopain/Desktop/m1.txt");
OutputStream out = null;
InputStream in = null;
try {
out = new FileOutputStream(f);
}
catch (FileNotFoundException g) {
// TODO Auto-generated catch block
g.printStackTrace();
}
StringBuilder sb = new StringBuilder();
try {
// in = new FileInputStream(new
// File("/home/gopain/Desktop/JNI/Main.java"));
InputStreamReader read = new InputStreamReader(new FileInputStream(
new File("/Users/gopain/Desktop/text.txt")));// 考虑到编码格式
BufferedReader bufferedReader = new BufferedReader(read);
String lineTxt = null;
try {
while ((lineTxt = bufferedReader.readLine()) != null) {
if((<span style="font-family: Arial, Helvetica, sans-serif;">lineTxt.indexOf("。")</span><span style="font-family: Arial, Helvetica, sans-serif;">+3) > </span><span style="font-family: Arial, Helvetica, sans-serif;">lineTxt.length())</span><span style="font-family: Arial, Helvetica, sans-serif;">
</span> sb.append(lineTxt + "\n");
else
sb.append(lineTxt);
}
read.close();
}
catch (IOException g) {
// TODO Auto-generated catch block
g.printStackTrace();
}
}
catch (FileNotFoundException g1) {
// TODO Auto-generated catch block
g1.printStackTrace();
}
String content = sb.toString();
byte [] c_b = null;
try {
out.write(content.getBytes());
out.flush();
out.close();
}
catch (Exception g) {
g.printStackTrace();
}
}
很简单的一段代码,那么text.txt就是输入的文件,小说“牧羊少年奇幻之旅”,然后m.txt就是整理后的文件。
这段代码很简单,那么问题来了。
为什么还要贴出来呢?
我个人也觉得很简单,但是在写代码的过程中出了问题,每次出来的结果都不理想,但是以上贴出来的代码是可以实现的。
自己写代码的好处就是自定义规则,比如,我定义现在有回车的地方如果最后一个字符是“。”那么添加回车换行,否则不添加。虽然不精确,但是将就一下来讨论中文字符的问题。
应该都可以看懂代码,唯一不懂的地方大概是:
if((<span style="font-family: Arial, Helvetica, sans-serif;">lineTxt.indexOf("。")</span><span style="font-family: Arial, Helvetica, sans-serif;">+3) > </span><span style="font-family: Arial, Helvetica, sans-serif;">lineTxt.length())</span><span style="font-family: Arial, Helvetica, sans-serif;">
</span> sb.append(lineTxt + "\n");
else
sb.append(lineTxt);
不是语法不清楚,而是逻辑不理解了吧,好的。
机器的默认编码是UTF-8,那么对于中文就是三个字节,符号两个。
所以,如果有一句话最后的一个字符是“。”,那么其位置肯定在字符总长度-2的位置。所以才有以上的逻辑。
其实没有什么技术含量。
还有,会写代码就是好,很多问题就可以自己解决了,真的。