Python实现单词查询&文件查找

最新推荐文章于 2023-05-06 00:26:43 发布

weixin_30814223

最新推荐文章于 2023-05-06 00:26:43 发布

阅读量1.4k

点赞数

文章标签： python c/c++

原文链接：http://www.cnblogs.com/sun-haiyu/p/7026959.html

版权

最近学C++ Primer，做到第十二章有个习题。要求针对英文文本，对于用户想搜索的单词，打印出该单词在文本中出现的总次数，单词所出现行号及对应的行内容；单词在一行内出现多次，只打印该行一次。C++的代码太长就不给出，实现大概是用vector<string>保存每一行内容，set保存每个单词出现的行号，map<string, set>来保存单词与所在行号的映射。set.size()表示单词出现的总行数。这是个很好的思路，然而用类的方式实现起来有点繁琐了。好久不用Python了，灵机一动，想试试在Python上如何简单实现同样的功能。

单词查询

程序较为简单，直接上代码。

# 查询文本中某单词出现的次数，并打印其出现的行号及所在行的内容
# 只适用于英文文本
import re
from string import punctuation

text = open('find.txt')
text_list = text.readlines()
# 删除标点及其他常用符号
# punctuation = r"""!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~"""
text_plain = re.sub(r'[{}]'.format(punctuation), '', ''.join(text_list))
# 大写转换为小写，便于正确统计单词数
one_word_list = [word.lower() for word in text_plain.split()]
print(one_word_list)


def run_query(wanted):
    word_total = 0
    # 统计出现的总个数
    for each in one_word_list:
        if each == wanted:
            word_total += 1

    print('"{}" occurs {} times'.format(wanted, word_total))

    line_number = 0
    for line in text_list:
        line_plain = re.sub(r'[{}]'.format(punctuation), '', line)
        word_list = [word.lower() for word in line_plain.split()]
        # 按照用户习惯第一行从"1"开始
        line_number += 1
        # 每行的单词列表
        if wanted in word_list:
            # 而下标"0"表示第一行，故需要减去1
            print('\tline {}: {}'.format(line_number, text_list[line_number - 1]), end='')


if __name__ == '__main__':
    while True:
        sought = input('Input a word you want to search: ')
        if sought == 'q':
            break

        run_query(sought)

看下结果，下面这张是Python下运行，yes出现94次。

%E6%96%87%E6%9C%AC%E6%9F%A5%E8%AF%A2_360%E5%8F%8D%E9%A6%88%E6%84%8F%E8%A7%81%E6%88%AA%E5%9B%BE16620617679778.png

C++中，yes出现91次。

%E6%96%87%E6%9C%AC%E6%9F%A5%E8%AF%A2_360%E5%8F%8D%E9%A6%88%E6%84%8F%E8%A7%81%E6%88%AA%E5%9B%BE16491221705451.png

仔细观察，两者对应的行号是一样的。为何单词出现次数C++版本就比Python版本少了？原因在于C++ Primer里面的写法是用的set，由于set里面的元素不能重复，如果想要查询的单词在一行内出现多次，实际也只记录一次。程序用set.size()表示单词出现总次数，即假设有n行里存在这个单词，单词出现总次数就是n。不知道作者本来就想实现这样的功能还是出于什么原因，私以为，这不符合我们的初衷。Python版本里对于想查询的单词，不管是否在一行内出现多次，都真正做到了精确计数。

文件查找

突然想起以前还写过个小脚本，查询本地文件。是当时看廖雪峰的Pytthon教程时做的一个课后习题。一起贴在这儿。

import os


def find_files(path, wanted):
    try:
        # 盘符内所有文件（夹）的路径
        dir_list = os.listdir(path)
        for filename in dir_list:
            # 当前文件（夹）的路径
            new_path = os.path.join(path, filename)
            # 如果是文件夹，深入下一级继续查找
            if os.path.isdir(new_path):
                find_files(new_path, wanted)
            # 若是文件，检查文件名里是否含有关键字, 应该不区分大小写，特别是针对后缀名时比较方便
            elif os.path.isfile(new_path):
                if wanted.lower() in filename.lower():
                    print(new_path)
    except Exception as e:
        print(e)


def save_all():
    print('Example:\npath>>> F:\\secret\\action movies' + '\n' + 'key>>> .avi')
    print('The result will be saved in C:\\findall.txt\n==========================================')
    p = input('path>>> ')
    k = input('key>>> ')
    find_files(p, k)


if __name__ == '__main__':
    save_all()

试试查询我的E:/Movie下得MP4视频文件

path>>> E:/Movie
key>>> .mp4
E:/Movie\[YYDM] HUNTER×HUNTER(2011)\HUNTER×HUNTER(2011) 001.mp4
E:/Movie\[YYDM] HUNTER×HUNTER(2011)\HUNTER×HUNTER(2011) 002.mp4
E:/Movie\[YYDM] HUNTER×HUNTER(2011)\HUNTER×HUNTER(2011) 003.mp4
E:/Movie\[YYDM] HUNTER×HUNTER(2011)\HUNTER×HUNTER(2011) 004.mp4
E:/Movie\[YYDM] HUNTER×HUNTER(2011)\HUNTER×HUNTER(2011) 005.mp4
E:/Movie\[YYDM] HUNTER×HUNTER(2011)\HUNTER×HUNTER(2011) 006.mp4
E:/Movie\[YYDM] HUNTER×HUNTER(2011)\HUNTER×HUNTER(2011) 007.mp4
E:/Movie\[YYDM] HUNTER×HUNTER(2011)\HUNTER×HUNTER(2011) 008.mp4
E:/Movie\[YYDM] HUNTER×HUNTER(2011)\HUNTER×HUNTER(2011) 009.mp4
E:/Movie\[YYDM] HUNTER×HUNTER(2011)\HUNTER×HUNTER(2011) 010.mp4
...

by @sunhaiyu

2016.9.29

转载于:https://www.cnblogs.com/sun-haiyu/p/7026959.html

weixin_30814223

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
Python实现单词查询&文件查找

最近学C++ Primer，做到第十二章有个习题。要求针对英文文本，对于用户想搜索的单词，打印出该单词在文本中出现的总次数，单词所出现行号及对应的行内容；单词在一行内出现多次，只打印该行一次。C++的代码太长就不给出，实现大概是用vector<string>保存每一行内容，set保存每个单词出现的行号，map<string, set>来保存单词与所在行号的映射。set.s...
复制链接

扫一扫