面试题 17.26. 稀疏相似度

17231

已于 2022-10-11 20:29:50 修改

阅读量146

点赞数

分类专栏： LeetCode C++ 文章标签：算法数据结构

于 2022-10-11 20:28:59 首次发布

本文链接：https://blog.csdn.net/qq_50117046/article/details/127270675

版权

C++ 同时被 2 个专栏收录

11 篇文章 0 订阅

订阅专栏

LeetCode

10 篇文章 0 订阅

订阅专栏

在这里插入图片描述
核心：需要获得两两vector间相同元素的个数

错误：普通的O(m²)遍历所有不同的vector，O(n)的unordered_set<int>一个vector<int>，遍历另一个vector找相同元素的算法效率较低，为O(mmn)，超时。

注意：它们的相似度非常“稀疏”，也就是说任选 2 个文档，相似度都很接近 0。

思路：通过unordered_map<int，vector<int>> hm统计同一个文字在哪些不同的vector中出现过，O(m*n)。由于相似度非常“稀疏”，map中的vector<int>的size会非常小。那么可以通过二维数组vector<vevtor<int>> sameMatrix遍历hm（记a=hm.size()，b=hm中最长vector<int>的size()），sameMatrix[i][j]代表第i个vector和第j个vector的相同元素个数，O(a*b*b)，b很小，通过。

细节注意：char str[256]可以被push_back进vector<string> ans。

代码：

class Solution {
public:
    vector<string> computeSimilarities(vector<vector<int>>& docs) {
        vector<string> ans;
        unordered_map<int,vector<int>> hm;
        int m=docs.size();
        if(m<2){
            return ans;
        }
        for(int i=0;i<m;i++){
            for(auto num:docs[i]){
                hm[num].push_back(i);
            }
        }
        vector<vector<int>> sameMatrix(m,vector<int>(m,0));
        for(auto &[k,vec]:hm){
            //稀疏的,n会非常小
            int n=vec.size();
            if(n<2){
                continue;
            }
            for(int i=0;i<n;i++){
                for(int j=i+1;j<n;j++){
                    int idx1=min(vec[i],vec[j]);
                    int idx2=max(vec[i],vec[j]);
                    sameMatrix[idx1][idx2]++;
                }
            }
        }
        for(int i=0;i<m;i++){
            for(int j=i+1;j<m;j++){
                if(sameMatrix[i][j]){
                    char str[256];
                    sprintf(str,"%d,%d: %.4f",i,j,sameMatrix[i][j]*1.0/(docs[i].size()+docs[j].size()-sameMatrix[i][j])+1e-9);
                    ans.push_back(str);
                }
            }
        }
        return ans;
    }
};