练习11-1
编写一个函数,读入words.txt的单词列表,并将它们作为键保存到一个字典中。字典的值是什么并不重要。然后你就可以使用in操作符来快速的检查一个字符串是否在这个字典之中。
可以将这个实现与列表的in操作符及二分查找,进行速度的比较。
import time
from binary_search import *
def dictkey():
fin = open('words.txt')
dict1 = dict()
for line in fin:
word = line.strip()
dict1[word] = 'value'
return dict1
def listin():
t= []
fin = open('words.txt')
for line in fin:
word = line.strip()
t.append(word)
return t
dict1 = dictkey()
start1 = time.time()
if 'zymurgy' in dict1:
print True
end1 = time.time()
dur_time1= end1 - start1
print 'time1',dur_time1,'secs'
list1 = listin()
start2 = time.time()
if 'zymurgy' in list1:
print True
end2 = time.time()
dur_time2 = end2 - end1
print 'time2',dur_time2,'secs'
start3 = time.time()
if bisect(list1,'zymurgy'):
print True
end3 = time.time()
dur_time3 = end3 - start3
print 'time3',dur_time3,'secs'
运行结果 如下:
True
time1 0.000163078308105 secs
True
time2 0.0735111236572 secs
True
time3 0.000103950500488 secs
为什么二分查找比字典快?应该哪里出问题。。。
练习 11-9
如果你做过练习10-8,则已经有了一个接受了列表作为形参的函数 has_duplicates,当列表中有任意元素出现多于一次时返回True.使用字典编写一个更快、更简单的 has_duplicates。
def has_duplicates(t):
d = {}
for x in t:
if x in d:
return True
d[x] = True
return False
def has_duplicates2(t):
return len(set(t)) < len(t)
if __name__ == '__main__':
t = [1, 2, 3]
print has_duplicates(t)
t.append(1)
print has_duplicates(t)
t = [1, 2, 3]
print has_duplicates2(t)
t.append(1)
print has_duplicates2(t)
练习 11-10
两个单词,如果可以使用轮转操作将一个转换为另一个,则称为"轮转对"(参见练习8-12中的rotate_word函数)。
编写一个程序,读入一个单词表,并找到所有的轮转对。
from rotate import rotate_word
def make_word_dict():
d = dict()
fin = open('words.txt')
for line in fin:
word = line.strip().lower()
d[word] = word
return d
def rotate_pairs(word, word_dict):
for i in range(1, 14):
rotated = rotate_word(word, i)
if rotated in word_dict:
print word, i, rotated
if __name__ == '__main__':
word_dict = make_word_dict()
for word in word_dict:
rotate_pairs(word, word_dict)
练习11-11
寻找这样的单词:当你删除第一个字母时,剩下的字母组成原单词的一个同音词,即发音完全相同的词。将第一个字母放回去,并删除第二个字母,结果也是原单词的另一个同音词。问题是,这个单词是什么?
有这样一个示例,但是它并不完全符合条件。我们看这个5字母单词 "wrack",如果我删掉第一个字母,会剩下一个4字母的单词"rack",他和原来的单词是同音词。但如果把’w‘放回去,并删掉'r',会得到单词“wack”,这也是一个真实单词,只是它的读音和其他两个不一样。
至少有一个单词能够通过删除前两个字母得到两个同音词。问题是:这个单词是什么?
你可以使用练习11-1中的字典来检测一个字符串是否出现在单词表中。
要检查两个单词是不是同音词,可以使用CMU发音词典。可以从这里点击打开链接或者这里点击打开链接下载它,也可以下载http://thinkpython.com/code/pronounce.py,其中提供了一个叫做 read_dictionary的函数来读入发音词典并返回一个Python字典,将每个单词映射到表示其主要读音的字符串上。
编写一个程序,列出所有满足条件的单词。
pronounce.py
def read_dictionary(filename='c06d'):
d = dict()
fin = open(filename)
for line in fin:
# skip over the comments
if line[0] == '#': continue
t = line.split()
word = t[0].lower()
pron = ' '.join(t[1:])
d[word] = pron
return d
if __name__ == '__main__':
d = read_dictionary()
for k, v in d.items():
print k, v
from pronounce import read_dictionary
def make_word_dict():
d = dict()
fin = open('words.txt')
for line in fin:
word = line.strip().lower()
d[word] = word
return d
def homophones(a, b, phonetic):
if a not in phonetic or b not in phonetic:
return False
return phonetic[a] == phonetic[b]
def check_word(word, word_dict, phonetic):
word1 = word[1:]
if word1 not in word_dict:
return False
if not homophones(word, word1, phonetic):
return False
word2 = word[0] + word[2:]
if word2 not in word_dict:
return False
if not homophones(word, word2, phonetic):
return False
return True
if __name__ == '__main__':
phonetic = read_dictionary()
word_dict = make_word_dict()
for word in word_dict:
if check_word(word, word_dict, phonetic):
print word, word[1:], word[0] + word[2:]