最近学C++ Primer,做到第十二章有个习题。要求针对英文文本,对于用户想搜索的单词,打印出该单词在文本中出现的总次数,单词所出现行号及对应的行内容;单词在一行内出现多次,只打印该行一次。C++的代码太长就不给出,实现大概是用vector保存每一行内容,set保存每个单词出现的行号,map来保存单词与所在行号的映射。set.size()表示单词出现的总行数。这是个很好的思路,然而用类的方式实现起来有点繁琐了。好久不用Python了,灵机一动,想试试在Python上如何简单实现同样的功能。
单词查询
程序较为简单,直接上代码。
# 查询文本中某单词出现的次数,并打印其出现的行号及所在行的内容
# 只适用于英文文本
import re
from string import punctuation
text = open('find.txt')
text_list = text.readlines()
# 删除标点及其他常用符号
# punctuation = r"""!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~"""
text_plain = re.sub(r'[{}]'.format(punctuation), '', ''.join(text_list))
# 大写转换为小写,便于正确统计单词数
one_word_list = [word.lower() for word in text_p