统计 text/html 文档类型

      使用heritrix抓取的网页存储在jobs/crawler/mirror下,判断抓取的文件是否是text/html 文档类型,只需要判断文件中是否含有 “text/html” 字符串,使用BufferedReader类中的readLine()方法读取文件每一行,检查其是否包含该串,如果有则说明是text/html 文档,否则,一直读到文件末尾仍未包含,则不是text/html 文档。

      遍历jobs文件夹下每个crawler文件夹,找到其目录下的mirror文件夹,对其进行深度优先搜索,找到目录树的每一片叶子(即文件),检索文件,检查是否包含“text/html”字符串,如果有,则计数器加1

publicvoid searchFile(File file) {

       File[] subDirectory = null;

       BufferedReader brFile = null;

       String textLine = null;

       if(!file.isDirectory()) {

           /*

            * 读取文件,判断是否含有 TEXT_HTML = "text/html"

            */

           try {

              brFile = new BufferedReader(new FileReader(file));

              while((textLine = brFile.readLine())!= null) {

                  if(textLine.contains(TEXT_HTML)) {

                     count ++;

                     break;

                  }

              }

           } catch(IOException e) {

              e.printStackTrace();

           } finally {

              try {

                  if(brFile != null) {

                     brFile.close();

                     brFile = null;

                  }

              } catch(IOException e) {

                  e.printStackTrace();

              }

           }

       } else {

           subDirectory = file.listFiles();

           for(int i = 0; i < subDirectory.length; i++) {

              searchFile(subDirectory[i]);

           }

       }

}

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值