方法
将英文书籍转化成文本文件book0.txt,然后执行下面的命令即可:
cat book0.txt |tr -cs "[a-z][A-Z][0-9]" "[\012*]" | tr A-Z a-z |sort | uniq -c | sort
有了词频,就能有针对性地将书中高频词汇先系统学习一遍,提高阅读效率啦。
未解决问题:
1、时态,复数问题:word 和 words 属于同一个单词,应该聚集起来
2、常见词问题:有些常见词,the, a 等等,没必要出现在结果列表中。这些常见词汇大约有几千个,可以根据水平加入过滤器。
2已解决: https://github.com/raywill/wf/
参考内容:
高频词汇:https://www.logicofenglish.com/spelling-lists/high-frequency-words , http://www.wordfrequency.info/free.asp