在系统中找到重复文件

描述

给定一个目录信息列表(包含目录路径),以及该目录中包含内容的所有文件,你需要根据路径查找文件系统中所有重复文件组。

一组重复文件包含至少两个具有相同内容的文件。

输入信息列表中的单个目录信息字符串具有如下格式:

"root/d1/d2/.../dm f1.txt(f1_content) f2.txt(f2_content) ... fn.txt(fn_content)"

这代表在目录root/d1/d2/.../dm中有 n 个文件 (f1.txt, f2.txt ... fn.txt,内容分别为 f1_content, f2_content ... fn_content). 注意n >= 1 并且 m >= 0。 如果 m = 0, 这意味着这个目录正好是根目录。

输出一个包含重复文件路径的列表。对于每一个组,包含所有的具有相同内容的文件路径。一个文件路径是一个具有以下格式的字符串 A file

"directory_path/file_name.txt"

1.最终输出不需要特定顺序。
2.你可以假定目录名称、文件名称和文件内容只包含字母和数字,文件内容的长度在 [1,50] 内.
3.给定的文件的数目在在[1,20000]内.
4.你可以假定在同一个目录下,没有文件或者目录共享同一个名字.
5.你可以假定每一个给定的目录信息代表一个唯一的目录。目录路径和文件信息由单个空格分割。

您在真实的面试中是否遇到过这个题?  是

题目纠错

样例

样例1

输入:
["root/a 1.txt(abcd) 2.txt(efgh)", "root/c 3.txt(abcd)", "root/c/d 4.txt(efgh)", "root 4.txt(efgh)"]
输出:  
[["root/a/2.txt","root/c/d/4.txt","root/4.txt"],["root/a/1.txt","root/c/3.txt"]]

样例2

输入:
["root/a 1.txt(abcd) 2.txt(efgh)"]
输出:  
[]

挑战

1.想象给定一个真实的文件系统,你会怎样检索文件?DFS 还是 BFS?
2.如果文件内容十分大(GB级别),你会怎样修改你的答案?
3.如果你只能以每单位时间1kb的速度读入文件,你会怎样修改你的答案?
4.你修改过的答案的事件复杂度怎么样?最花时间的部分和最花内存的部分分别是什么?如何优化?
5.怎样保证你找到的重复文件不是误报?

 

public class Solution {
    /**
     * @param paths: a list of string
     * @return: all the groups of duplicate files in the file system in terms of their paths
     */
    public List<List<String>> findDuplicate(String[] paths) {
        // Write your code here
        HashMap<String,List<String>> hm = new HashMap<String,List<String>>();
        
        List<List<String>> resultList = new ArrayList<List<String>>();
        
        for (int i = 0; i < paths.length; i++)
        {
            String p = paths[i];
            String[] pathArr = p.split(" ");
            String root = pathArr[0];
            for (int j = 1;j < pathArr.length;j++)
            {
                String s = pathArr[j];
                String[] contentArr = s.split("\\(");
                
                String fileName = contentArr[0];
                String value = contentArr[1];
                if(false == hm.containsKey(value))
                {
                    List<String> ls = new ArrayList<String>();
                    ls.add(root + "/" +fileName);
                    hm.put(value,ls);
                }
                else
                {
                    int n = resultList.indexOf(hm.get(value));
                    System.out.print(n);
                    
                    hm.get(value).add(root + "/" +fileName);
                    
                    
                    if(-1 != n)
                    {
                        resultList.set(n,hm.get(value));
                    }
                    else
                    {
                        resultList.add(hm.get(value));
                    }
                    
                }
            }
            
        }
        return resultList;
    }
}

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值