如何将一个目录下的所有文件,合并成一个文件

在上一篇文章讲到(http://blog.csdn.net/qy20115549/article/details/52784986):在处理文本时,经常遇到超过1g存储的数据,直接简单的读取,可能遇到Java空间不足的问题,为解决此问题,可将大文本数据按照行进行切分为很多块,并将每一块存储为一个文本。然后单独去操作每一个小文本,比如,我所做的分词,便是利用此原理。所要分词的文本是几个G,所有我将这样一个大文本切割成一个一个的小文本,接着对每个小文本进行分词。

在对每一个小文本进行分词后,得到的文本,我想要进行词频的统计并排序,就需要将一个个的小文本合并成一个文本,进行WordCount(http://blog.csdn.net/qy20115549/article/details/52784926)

那么,如何将某一目录下的所有文本,合并成为一个文本呢?以下是一个java实现文本合并的程序,仅供大家参考:

import java.io.BufferedReader;
import java.io.BufferedWriter;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.InputStreamReader;
import java.io.OutputStreamWriter;
import java.util.ArrayList;
import java.util.List;
/*
* author:合肥工业大学 管院学院 钱洋
*1563178220@qq.com
*/
public class TextConbine {
    public static void main(String[] args) throws IOException{
        BufferedWriter writer = new BufferedWriter( new OutputStreamWriter( new FileOutputStream(new File("D:\\钱洋个人\\学术中心\\数据处理\\user_content_qianyang_split.txt")),"utf-8"));
        String filePath = "D:/钱洋个人/学术中心/数据处理/文本分词2";
        List<string> fileList = new ArrayList<string>();
        fileList= getFiles(filePath);
        for (String file:fileList) {
            BufferedReader reader = new BufferedReader( new InputStreamReader( new FileInputStream( new File(file)),"utf-8"));
            String s=null;
            while ((s=reader.readLine())!=null) {
                writer.append(s);
            }
        }

        writer.close();
    }
    static List<string> getFiles( String filePath )
    {
        List<string> filelist = new ArrayList<string>();
        File root = new File( filePath );
        File[] files = root.listFiles();
        for ( File file : files )
        {
            if ( file.isDirectory() )
            {
                getFiles( file.getAbsolutePath() );
                filelist.add( file.getAbsolutePath() );
                //System.out.println( "显示" + filePath + "下所有子目录及其文件" + file.getAbsolutePath() );
            }else{
                filelist.add( file.getAbsolutePath() );
                //System.out.println("显示" + filePath + "下所有子目录" + file.getAbsolutePath() );
            }
        }
        return filelist;
    }

}
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值