java中合并不同子目录下的txt文件(CHM转换成txt的过程)

近日下了一个中文小说CHM,希望放到手机里阅读。结果发现小屏幕的手机看chm真是痛苦。因此想将chm转成txt。
文件:E:\temp.chm
文件大小:220M
试了几个转换工具,貌似都不行⊙﹏⊙b汗
那就自己弄吧^_^,这种方式应该也能转成其他格式,例如word啥的。
首先在cmd命令行用如下命令对dhm反编译:
                              hh -decompile 目标文件夹 源CHM文件名
得到temp文件夹,里面一堆文件
 

 

所有的txt文本都在temp\txt\数字\txt文件夹中,此文件夹中除了txt文件还有其他文件,例如.jpg

 

大概浏览了一下,txt中需要的部分应该都是中文及标点(,。;)。除了需要的部分,还有一堆html控制语言(英文字母,其他符号,例如< > \ /等)。因此合并时将不需要的部分去掉。这一点可以了利用正则表达式实现(参见http://blog.csdn.net/matao409/article/details/9188737)。

 java合并程序如下:

 

package tony.txttool;

import java.io.BufferedReader;
import java.io.BufferedWriter;
import java.io.File;
import java.io.FileReader;
import java.io.FileWriter;
import java.io.IOException;

public class TxtTool {

	/**
	 * @param args
	 * @throws IOException 
	 */
	public static void main(String[] args) throws IOException {
		BufferedWriter fw = new BufferedWriter(new FileWriter(new File("F:\\new.txt")));
		BufferedReader fr = null;

		String basepath = "E:\\temp\\txt\\";
		String subpath = null;
		String[] subdirnames = new File(basepath).list();
		
		for(int i=0;i<subdirnames.length;i++)
		{
			subpath=basepath+subdirnames[i]+"\\txt";
			System.out.println(subpath);
			
			File[] files =  new File(subpath).listFiles();
			System.out.println("number of files in "+subpath+" : "+files.length);
			for(int j=0;j<files.length;j++)
			{
				//如果不是以.txt结尾的话跳过
				if(!"txt".equals(files[j].getName().split("\\.")[1]))
					{
						System.out.println(files[j].getName()+"不是txt文件");
						continue;
					}

				//是txt文件,则从此文件中读出(fr),然后写入到new.txt中(fw)	
				fr = new BufferedReader(new FileReader(files[j]));
				String line = null;
				while((line=fr.readLine())!=null)
				{
					line = handleString(line);
					fw.write(line);
					fw.newLine();					
				}
			}					
		}
		fw.close();
		fr.close();
		System.out.println("over");
	}
	
	private static String handleString(String s)
	{
		//利用正则表达式和字符串的替换函数,去除所有除了逗号和句号的非汉字
		s = s.replaceAll("[^\\u4e00-\\u9fa5|\\,||。]", "");
		return s;
	}
}


 

 最后看到文件比较大,又分割了一下

http://blog.csdn.net/matao409/article/details/9189729

 

 .bat批处理方法应该也能实现,有待进一步研究

 

================================================================

原创文章,转载请注明链接

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
1 HTM(HTML)TXT 所需软件:HTML2TXT.exe 说明:启动软件,单击“添加文件”按钮找到需要换的HTML文件;选择一个输出文件夹,然后单击“开始”按钮即可得到反编译后的HTM文件。 2 CHMTXT 所需软件:CHM Encoder 说明:启动软件,单击“打开”按钮,找到需要换的CHM文件;选择一个输出文件夹,然后单击“开始”按钮,即可得到反编译后的HTM文件。接下来执行上面讲过的HTM(HTML)TXT的步骤,即可得到TXT文件。 3 PDFTXT 所需软件:PDF Text Converter 说明:启动软件后,先在左上方的浏览器窗口内找到PDF文件所在的文件夹,此时左下方的文件列表窗口会显示出该文件的PDF文件,选换的文件,单击工具栏上的“添加文件”按钮,即会在右上方的窗口列出等待换的文件,添加完成后,单击齿轮形状的“换”按钮,即可完成换,换好的TXT文件保存在源文件所在文件夹内。 4 JARTXT 所需软件:WinRAR 说明:只要你的电脑上安装了WinRAR,即可右击JAR文件,直接将其解压缩。此时你需要做的,就是将这些没有扩展名的文件加上TXT的扩展名并合并(快捷的方法下面会有介绍)。 5 UMDTXT 所需软件:XBookMaker 说明:启动软件后,单击左上方的“Open folder”按钮,定位到包含UMD电子书的文件夹,此时会在左边的的“Files”窗口列出该文件夹内包含的所有UMD格式的电子书,点击一个UMD文件,左下方的“Chapters”窗口即会显示该电子书所包含的章节。单击任意一个章节,即可在右边的窗口看到该章节的内容。现在你只需将其复制并将其粘贴到记事本,保存为TXT即可, 6 EXETXT 所需软件:miniKillEBook 说明:先打开想要换的EXE电子书,再启动miniKillEBook,勾选“以文本方式保存”复选框,拖动图的图标到电子书窗口,单击“开始”按钮,软件即会自动将电子书“逐页翻过”并将每一页的内容存为TXT文本。 刚看到的软件,我比较喜欢用手机看书,这个很方便
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值