具体含义是
- 统计一本书的总单词数;
- 统计单词出现的次数(词频)。
第一个很简单。在Word里就能完成了。因为Word有统计字数的功能。第二个相对要复杂一些。因为要用到EmEditor和一点数据库的操作。下面主要讲一下第二个。
首先要将这本电子书(EPUB格式)转换成DOCX格式。用什么转换工具?Calibre是最好的选择。其次用Word打开这本书后将全部内容Copy到EmEditor里。第三步把所有的空格替换成段落标记。注意要用到正侧表达式。替换掉所有数字,替换掉所有标点符号,去掉多余的空行,使保证一行一个单词后保存为TXT格式。第四步将这个文档内容导入到Access。然后再来一个Group by 单词就搞定了。
统计后发现有时真的很佩服外国的作家。因为在一本40来万单词总量的小说里,有很多单词只使用一次。
下面以Winds of War为例
总词单词数为:37万,去年数据和标点后,总单词数为38万;共用单词:19530个(不重复),只使用过1次的单词7415个!是不是比我学过的单词量都大?下面看看前24个使用频率最高的单词:
字段1 | cc |
The | 22421 |
and | 10441 |
a | 10217 |
to | 8299 |
of | 7737 |
In | 7061 |
I | 5099 |
s | 4713 |
he | 4622 |
you | 4191 |
that | 3994 |
was | 3979 |
it | 3740 |
His | 3476 |
on | 3118 |
with | 2992 |
had | 2709 |
at | 2654 |
for | 2426 |
said | 2037 |
this | 2013 |
But | 1877 |
they | 1849 |
her | 1824 |
是不是很有意思?
根据上面的思路,我就用上千万单词的书来建立了个词库,以后每次遇到生词时都看看词频。如果很低,那就不背这个单词了。