我正在尝试创建一个反向的文档索引,因此我需要从集合中所有唯一的单词中知道它们出现在哪个doc中以及多久出现一次。在
我用了this答案来创建一个嵌套字典。提供的解决方案运行良好,但有一个问题。在
首先,我打开文件,列出一个独特的单词列表。这些独特的词我想和原始文件比较一下。当有匹配项时,频率计数器应更新并将其值存储在二维数组中。在
输出最终应如下所示:word1, {doc1 : freq}, {doc2 : freq}
word2, {doc1 : freq}, {doc2 : freq}, {doc3:freq}
etc....
问题是我不能更新dictionary变量。当我试图这样做时,我得到了一个错误:
^{pr2}$
我想我需要以某种方式把自生的例子投射到智力中。。。。在
怎么走?在
提前谢谢
我的代码:#!/usr/bin/env python
# encoding: utf-8
import sys
import os
import re
import glob
import string
import sets
class AutoVivification(dict):
"""Implementation of perl's autovivification feature."""
def __getitem__(self, item):
try:
return dict.__getitem__(self, item)
except KeyError: