点击上方“程序人生”,选择“置顶公众号”
第一时间关注程序猿(媛)身边的故事
作者
何坦瑨
来源
https://zhuanlan.zhihu.com/p/42470066
如需转载,请联系原作者。
杀G之路漫漫,求索之人跄跄。如何边看电影边记单词,娱乐学习两不误?且让大数据告诉我们,究竟哪些影视作品大量出现GRE单词?看懂多少部影视作品,就可以掌握过半GRE词汇?
说明:GRE,全称Graduate Record Examination,中文名称为美国研究生入学考试,适用于除法律与商业外的各专业,由美国教育考试服务处(Educational Testing Service,简称ETS)主办。GRE是世界各地的大学各类研究生院(除管理类学院,法学院)要求申请者所必须具备的一个考试成绩,也是教授对申请者是否授予奖学金所依据的最重要的标准。GRE,首次由美国哈佛,耶鲁,哥伦比亚,普林斯顿四所大学联合举办,初期由卡耐基基金会(Carnegie Foundation)承办,1948年交由新成立的教育测试中心ETS负责。
【先放结论】都说没有调查就没有发言权,本文通过对11万部影视作品进行大数据分析,为大家找出那些与GRE最相关的作品。原来包含最多GRE单词的是哈姆莱特!看懂时长4小时的哈姆莱特可以帮你掌握915个GRE单词!而掌握过半GRE词汇,可能只需要看懂20部电影!
一、数据来源
感谢射手站长,他将15年来积累的海量字幕数据无私分享出来,供广大群众学习研究使用。其中包括对应于26万部影视作品的66万份字幕文件,压缩后大约75G。经过压缩格式分类,解压缩,字幕格式分类,编码转换,英文识别,数据清理等过程后,得到对应于114198部影视作品的225190份英文字幕文件。
二、数据分析
1. 英文字幕中有多少GRE单词?
绝大部分英文字幕包涵0-300个GRE单词,平均值108,方差52,概率分布如下图。GRE单词最多的单个字幕文件来自于莎翁的《哈姆莱特/Hamlet》,内含915个GRE单词,难怪让人如痴如醉!所谓“一千个读者,就有一千个哈姆莱特”,大概是……看到这些单词不认识啊!所以就只好乱猜啦,然后每个人都猜得不一样!反正本宝宝是看得醉了……
2. 最“学术”的十大影视作品
有的作品包含GRE单词比较多,但时间也很长。到底哪些影视的“性价比”最高呢?根据GRE单词占所有英文词条的比例排序,以下列出10大最“学术”(GRE单词占比最高)的影视作品供参考。其中有来自莎翁的作品有三部——《哈姆莱特/Hamlet》,《麦克白/Macbeth》和《奥塞罗/Othello》,平均每4个不同单词里面就有一个可以在红宝书里找到!现在,你们知道谁是真正的GRE狂魔了么!!!
经常有一种错觉,那些喜欢看纪录片的同学都逼格很高。现在知道,这并不是错觉!在top 10高频GRE电影中,六成是来自Discovery,国家地理和BBC的纪录片。所以,人家用来思考说话的语言就已经和凡人拉开档次了好嘛!
3. 看电影背GRE的学习曲线
现在问题来了,走过多少路才叫做成长,最少看完多少电影才学完GRE?考虑到不同影片的单词大量重复,这并不是一个简单的问题。
用数学的语言说,是给定全集U以及一个包含n个集合且这n个集合的并集为全集的集合S,要找到S的一个最小的子集,使得他们的并集等于全集,简称最小集合覆盖,是一个经典的NP难问题。(