[JAVA] 文本分段处理,中文

上一篇发布了一个小说,原文是PDF。

为了发布到csdn博客中,用工具转成了txt文本,但是由于本来PDF的篇幅限制,后来转换出来的txt也是和PDF排版一样的文本。

截图:



抱歉,分辨率太高啦大笑

然后转换成了txt之后。


那么,问题来了。(不是挖掘机学校哪家强)

PDF的可以接受,那么文本的也是半句话就回车,那么就无法直视了。

现在要编辑,那么这么多,一行一行的去删回车,很不方便,然后又想到了文本编辑,替换特殊字符。但是比较笨,没有找到怎么操作。

最后的最后,暴露了本性,写了一段代码解决的委屈

然后上代码。

public static void main(String [] args) {
		File f = new File("/Users/gopain/Desktop/m1.txt");
		OutputStream out = null;
		InputStream in = null;
		try {
			out = new FileOutputStream(f);
		}
		catch (FileNotFoundException g) {
			// TODO Auto-generated catch block
			g.printStackTrace();
		}
		StringBuilder sb = new StringBuilder();
		
		try {
			// in = new FileInputStream(new
			// File("/home/gopain/Desktop/JNI/Main.java"));
			InputStreamReader read = new InputStreamReader(new FileInputStream(
					new File("/Users/gopain/Desktop/text.txt")));// 考虑到编码格式
			BufferedReader bufferedReader = new BufferedReader(read);
			String lineTxt = null;
			try {
				while ((lineTxt = bufferedReader.readLine()) != null) {
					
					if((<span style="font-family: Arial, Helvetica, sans-serif;">lineTxt.indexOf("。")</span><span style="font-family: Arial, Helvetica, sans-serif;">+3) > </span><span style="font-family: Arial, Helvetica, sans-serif;">lineTxt.length())</span><span style="font-family: Arial, Helvetica, sans-serif;">
</span>						sb.append(lineTxt + "\n");
					else
						sb.append(lineTxt);
				}
				read.close();
			}
			catch (IOException g) {
				// TODO Auto-generated catch block
				g.printStackTrace();
			}
		}
		catch (FileNotFoundException g1) {
			// TODO Auto-generated catch block
			g1.printStackTrace();
		}
		

		String content = sb.toString();
		byte [] c_b = null;
		
		try {
			out.write(content.getBytes());

			out.flush();
			out.close();
		}
		catch (Exception g) {
			g.printStackTrace();
		}
}

很简单的一段代码,那么text.txt就是输入的文件,小说“牧羊少年奇幻之旅”,然后m.txt就是整理后的文件。

这段代码很简单,那么问题来了。

为什么还要贴出来呢?

我个人也觉得很简单,但是在写代码的过程中出了问题,每次出来的结果都不理想,但是以上贴出来的代码是可以实现的。

自己写代码的好处就是自定义规则,比如,我定义现在有回车的地方如果最后一个字符是“。”那么添加回车换行,否则不添加。虽然不精确,但是将就一下来讨论中文字符的问题。

应该都可以看懂代码,唯一不懂的地方大概是:

if((<span style="font-family: Arial, Helvetica, sans-serif;">lineTxt.indexOf("。")</span><span style="font-family: Arial, Helvetica, sans-serif;">+3) > </span><span style="font-family: Arial, Helvetica, sans-serif;">lineTxt.length())</span><span style="font-family: Arial, Helvetica, sans-serif;">
</span>	sb.append(lineTxt + "\n");
else
	sb.append(lineTxt);
不是语法不清楚,而是逻辑不理解了吧,好的。

机器的默认编码是UTF-8,那么对于中文就是三个字节,符号两个。

所以,如果有一句话最后的一个字符是“。”,那么其位置肯定在字符总长度-2的位置。所以才有以上的逻辑。

其实没有什么技术含量。

还有,会写代码就是好,很多问题就可以自己解决了,真的。




  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值