java中合并不同子目录下的txt文件(CHM转换成txt的过程)

近日下了一个中文小说CHM,希望放到手机里阅读。结果发现小屏幕的手机看chm真是痛苦。因此想将chm转成txt。
文件:E:\temp.chm
文件大小:220M
试了几个转换工具,貌似都不行⊙﹏⊙b汗
那就自己弄吧^_^,这种方式应该也能转成其他格式,例如word啥的。
首先在cmd命令行用如下命令对dhm反编译:
                              hh -decompile 目标文件夹 源CHM文件名
得到temp文件夹,里面一堆文件
 

 

所有的txt文本都在temp\txt\数字\txt文件夹中,此文件夹中除了txt文件还有其他文件,例如.jpg

 

大概浏览了一下,txt中需要的部分应该都是中文及标点(,。;)。除了需要的部分,还有一堆html控制语言(英文字母,其他符号,例如< > \ /等)。因此合并时将不需要的部分去掉。这一点可以了利用正则表达式实现(参见http://blog.csdn.net/matao409/article/details/9188737)。

 java合并程序如下:

 

package tony.txttool;

import java.io.BufferedReader;
import java.io.BufferedWriter;
import java.io.File;
import java.io.FileReader;
import java.io.FileWriter;
import java.io.IOException;

public class TxtTool {

	/**
	 * @param args
	 * @throws IOException 
	 */
	public static void main(String[] args) throws IOException {
		BufferedWriter fw = new BufferedWriter(new FileWriter(new File("F:\\new.txt")));
		BufferedReader fr = null;

		String basepath = "E:\\temp\\txt\\";
		String subpath = null;
		String[] subdirnames = new File(basepath).list();
		
		for(int i=0;i<subdirnames.length;i++)
		{
			subpath=basepath+subdirnames[i]+"\\txt";
			System.out.println(subpath);
			
			File[] files =  new File(subpath).listFiles();
			System.out.println("number of files in "+subpath+" : "+files.length);
			for(int j=0;j<files.length;j++)
			{
				//如果不是以.txt结尾的话跳过
				if(!"txt".equals(files[j].getName().split("\\.")[1]))
					{
						System.out.println(files[j].getName()+"不是txt文件");
						continue;
					}

				//是txt文件,则从此文件中读出(fr),然后写入到new.txt中(fw)	
				fr = new BufferedReader(new FileReader(files[j]));
				String line = null;
				while((line=fr.readLine())!=null)
				{
					line = handleString(line);
					fw.write(line);
					fw.newLine();					
				}
			}					
		}
		fw.close();
		fr.close();
		System.out.println("over");
	}
	
	private static String handleString(String s)
	{
		//利用正则表达式和字符串的替换函数,去除所有除了逗号和句号的非汉字
		s = s.replaceAll("[^\\u4e00-\\u9fa5|\\,||。]", "");
		return s;
	}
}


 

 最后看到文件比较大,又分割了一下

http://blog.csdn.net/matao409/article/details/9189729

 

 .bat批处理方法应该也能实现,有待进一步研究

 

================================================================

原创文章,转载请注明链接

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值