python 英语词频统计软件_为了边看美剧边学英语,我写了个字幕处理脚本

每个英语学渣(好吧,其实这个说的就是学渣本渣了570f04a6a5ff72c54004f59516fe64d9.png)都有这样一个梦想:能够一边轻松愉快地看着美剧,一边自己的英语听力水平还能蹭蹭地往上涨。知乎上也有很多人分享了自己通过美剧练习听力的方法,比如说只开英文字幕或者干脆就不要字幕。但是这两个方法都有自己的缺点,只开英文字幕的方法虽然说避免了下意识只看中文,但是却造成了只看字幕不听读音,从而练习了阅读忽略了听力;不开字幕的方法确实做到了强迫自己必须认真听,可是对于很多人来说,美剧中充满了大量的陌生词汇,比如说:

56d0ca17bbfc2f255d2c1eb50ad8f315.png

这句话中的 betrayal 是背叛的名词形式,可能很多人就不认识,或者说认识但是却没听过他的正确发音。这样一来,对这句话的理解就会出现障碍。美剧中还有很多类似情况,用这样的听力材料显然是不适合的。为了应对这种情况,我有了个想法:将字幕中的词汇拆分,并进行词频的检测,如果词频在 4000(可以根据自己的情况进行调整)以内,则将单词删除,如果词频在 4000 以外,则单独标注出该词的中文,效果如下:

acac580774ea8155b6eb9e11d531e6de.png

这样一来,这句话对于我来说就没有任何词汇上的障碍,假如一遍听不懂,我就可以放心大胆的再听一遍而不必担心是由于词汇的问题造成的理解障碍。

下面介绍程序的大体思路:

首先观察字幕文件,选择后缀名为 srt 的字幕文件用记事本打开如下(其他类型的字幕文件用记事本打开以后格式非常复杂,此处不讨论):

330aa1caf055430a69c7745d693afda0.png

观察文本特点,撰写相应的正则表达式

虽然在 Python 中使用正则表达式有几个步骤,但每一步都相当简单。

  1. import re导入正则表达式模块。

  2. re.compile()函数创建一个Regex对象(记得使用原始字符串)。

  3. Regex对象的search()方法传入想查找的字符串。它返回一个Match对象。

  4. 调用Match对象的group()方法,返回实际匹配文本的字符串。

常用的匹配规则:

  • ?匹配零次或一次前面的分组。

  • *匹配零次或多次前面的分组。

  • +匹配一次或多次前面的分组。

  • {n}匹配 n 次前面的分组。

  • {n,}匹配 n 次或更多前面的分组。

  • {,m}匹配零次到 m 次前面的分组。

  • {n,m}匹配至少 n 次、至多 m 次前面的分组。

  • {n,m}?*?+?对前面的分组进行非贪心匹配。

  • ^spam意味着字符串必须以 spam 开始。

  • spam$意味着字符串必须以 spam 结束。

  • .匹配所有字符,换行符除外。

  • \d\w\s分别匹配数字、单词和空格。

  • \D\W\S分别匹配出数字、单词和空格之外的所有字符。

  • [abc]匹配方括号内的任意字符(诸如 a、b 或 c)。

  • [^abc]匹配不在方括号内的任意字符

Python中转义字符使用倒斜杠(\)。字符串'\n'表示一个换行字符,而不是倒斜杠加上一个小写的n。你需要输入转义字符\\,才能打印出一个倒斜杠。所以'\\n'表示一个倒斜杠加上一个小写的 n。但是,通过在字符串的第一个引号之前加上r,可以将该字符串标记为原始字符串,它不包括转义字符。输入r'\d\d\d-\d\d\d-\d\d\d\d',比输入'\\d\\d\\d-\\d\\d\\d-\\d\\d\\d\\d'要容易得多。

由上述相应规则结合文本特点得到:

#空行、行数标号正则表达式rgx_none_and_num = re.compile(r'\d{1,2}\n')#时间正则表达式rgx_time = re.compile(r'\d\d:\d\d:\d\d,\d\d\d --> \d\d:\d\d:\d\d,\d\d\d\n')

之后,因为要查询词频,我在事先已经准备好了词频表:

1c8cd4d085e8c9a998e79520c90e67d7.png

要处理表格,需要用到 openpyxl 模块,下面是从电子表格文件中读取单元格涉及的所有函数、方法和数据类型。

  1. 导入openpyxl模块。

  2. 调用openpyxl.load_workbook()函数。

  3. 取得Workbook对象。

  4. 调用get_active_sheet()get_sheet_by_name()工作簿方法。

  5. 取得Worksheet对象。

  6. 使用索引或工作表的cell()方法,带上rowcolumn关键字参数。

  7. 取得Cell对象。

  8. 读取Cell对象的value属性。

由上述结合表格内容,建立词库字典:

#词频在4000以后的字典:wordlist4001 = {}#事先将名为“1-20000.xlsx”的词频表放在当前工作目录excel_content = openpyxl.load_workbook('1-20000.xlsx') sheet = excel_content['Sheet1']for row in range(4000,20201):    wordlist4001[sheet.cell(row,1).value] = sheet.cell(row,2).value#词频在4000以前的字典:wordlist4000 = {}for row in range(1,4001):    wordlist4000[sheet.cell(row,1).value] = sheet.cell(row,2).value

所有准备工作完成后,开始读取字幕文件和处理字幕文件,最后新建一个处理过后的字幕文件。完整程序如下:

# -*- coding:utf-8 -*-#导入模块import re,openpyxl#读入字幕文件text=open('The.Big.Bang.Theory.s05e05.720p.x264.chs&eng.srt','r')#空行、行数标号正则表达式rgx_none_and_num = re.compile(r'\d{1,2}\n')#时间正则表达式rgx_time = re.compile(r'\d\d:\d\d:\d\d,\d\d\d --> \d\d:\d\d:\d\d,\d\d\d\n')#处理字幕文件first_step = text.readlines()#新建一个字幕文件new_file = open('C:\\Users\\SYQ\Desktop\\处理版.srt','w')#建立4000后的字典wordlist4001 = {}excel_content = openpyxl.load_workbook('1-20000.xlsx')sheet = excel_content['Sheet1']for row in range(4000,20201):    wordlist4001[sheet.cell(row,1).value] = sheet.cell(row,2).value#建立4000前的字典wordlist4000 = {}for row in range(1,4001):    wordlist4000[sheet.cell(row,1).value] = sheet.cell(row,2).value#挑选出文字行进行处理for line in first_step:    #如果为空行,行数标号,则不动    if rgx_none_and_num.search(line):        new_file.write(line)    #如果为时间行则不动    elif rgx_time.search(line):        new_file.write(line)    #如果为字幕行,则处理    else:        words = line.lower().split()        for word in words:            #如果单词不在字典中,则跳过            if word in wordlist4000:                pass            #如果单词在字典中,则添加翻译            elif word not in wordlist4001:                pass            else:                new_word = word + ':' + wordlist4001[word] +'\n'                new_file.write(new_word)#关闭文件text.close()new_file.close()

因为我也是一个 python 初学者,因此在实现这个想法的过程中也遇到了很多问题,最后实现的方法可能也显得很笨拙,但是最后实现了还是很开心的,哈哈哈。


本文是我们编程教室新春征稿活动的一篇投稿,来自作者 @司夜。他和我们很多读者一样,学习 python 的时间并不长,但已经把 python 应用到自己的日常学习生活中,并整理成文投稿给我们,这很值得肯定。在实践中应用向他人讲解都是非常好的学习方式。不用在意自己写的代码还不够完善,Done is better than perfect!

我们编程教室会持续向所有人开放,如果有投稿或参与志愿者的意向,欢迎随时在公众号里给我们留言。

另外,关于编程与英语的结合,我们之前也有过不少文章,感兴趣的可以阅读:

  • 我们用程序整理出了一份Python英语高频词汇表,拿走不谢!

  • 分享一个强大的英汉词典开源数据库

  • 英语 vs 编程

  • 【每周一坑】单词本(此系列可在“每周一坑”栏目中查看)


其他内容回复左侧关键词获取:

python :零基础入门课程目录

新手 :初学者指南及常见问题

资源 :超过500M学习资料网盘地址

项目 :十多个进阶项目代码实例

如需了解视频课程及答疑群等更多服务,请号内回复 码上行动

代码相关问题可以在论坛上发帖提问 bbs.crossincode.com

推荐阅读:

Python转行 | 爬抖音 | 如何debug | 查天气 | 我用Python | 知乎 | 单词表 | 新手建议 | 如何提问 | 一图学Python | 智能防挡弹幕 | 红包提醒 | 流浪地球


欢迎加入

Crossin的编程教室

crossincode.com

d6ec6ee958f697d31c72f0207bcb0321.png

请把我们分享给身边爱学习的小伙伴 :)  

点击文末“”,查看更多学习资源

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值