LintCode 550: Top K Frequent Words II (用set代替最小堆)

  1. Top K Frequent Words II
    中文English
    Find top k frequent words in realtime data stream.

Implement three methods for Topk Class:

TopK(k). The constructor.
add(word). Add a new word.
topk(). Get the current top k frequent words.
Example
Example 1:

Input:
TopK(2)
add(“lint”)
add(“code”)
add(“code”)
topk()
Output:[“code”, “lint”]
Explanation:
“code” appears twice and “lint” appears once, they are the two most frequent words.
Example 2:

Input:
TopK(1)
add(“aa”)
add(“ab”)
topk()
Output:[“aa”]
Explanation:
“aa” and “ab” appear once , but aa’s dictionary order is less than ab’s.
Notice
If two words have the same frequency, rank them by dictionary order.

解法1:

  1. 因为是real-time数据,可以用最小堆。但是C++的priority_heap不能根据堆元素的改变值动态调整堆,那我们就用set来实现。每次当word在set中时,将words[word]++,然后将set中的word删除再加入,这样就可以实现动态调节,而且set会自动排好序。注意这里是求top K的frequent words, 不是求top K的integer,而word的存放的是以word本身为key来存放在set中的的,但排序是参考的它的freq。
  2. 注意q中如果已有该word,则将该word删掉再插入q中,因为set的排序是跟据word的freq,我们必须删掉后再加入,否则set发现word已经存在,insert(word)实际上什么也不干。
    或q.size()>k, 则删掉q的末尾元素。注意该两种情况下,map words里面的元素都不删掉。
    事实上,我们可以看出map words必须一直保存,所以这个对空间要求蛮高。事实上,想要寻找一个在线的,精确的,省空间的 Top K 高频项算法是不可能的。
  3. 这里是real-time数据,所以只能实现迄今为止来的数据中的topK。
  4. C++的priority_queue不提供adjust函数,可以用set来替代。
  5. set<string, cmp>可以同时定义string的比较函数
  6. words和q里面的元素不一样。words里面的元素永远不删除,而q里面只保留最多k个元素。
  7. By default, set里面的元素是从小到大排列,也就是s.begin()最小,*(–s.end())最大。但这里我们定义的operator()是大的沉下去,小的升上来,所以是会从大到小排列,也就是s.begin()最大,*(–s.end())最小。因为这里是最小堆,所以删除的时候是应该删除最小值,相当于是最小堆的pop()操作。

map<string, int> words;   //string vs frequent
struct cmp {
    bool operator() (const string & a, const string & b) {
        if (words[a] == words[b]) return a < b;
        return words[a] > words[b];
    }
};
    
class TopK {
public:
    /*
    * @param k: An integer
    */TopK(int k) {
        this->k = k;
    }

    /*
     * @param word: A string
     * @return: nothing
     */
    void add(string &word) {
        if (words.find(word) == words.end()) {
            words[word] = 1;
        } else {
            if (q.find(word) != q.end()) {
                q.erase(word);
            }
            words[word]++;
        }
        q.insert(word);
        if (q.size() > k) {
            q.erase(--q.end());
        }
    }

    /*
     * @return: the current top k frequent words.
     */
    vector<string> topk() {
        vector<string> result(q.begin(), q.end());
        return result;
    }

private:
    set<string, cmp> q;
    int k;
};
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值