怎样统计一本英语书中单词相关的信息

具体含义是

  1. 统计一本书的总单词数;
  2. 统计单词出现的次数(词频)。

第一个很简单。在Word里就能完成了。因为Word有统计字数的功能。第二个相对要复杂一些。因为要用到EmEditor和一点数据库的操作。下面主要讲一下第二个。

首先要将这本电子书(EPUB格式)转换成DOCX格式。用什么转换工具?Calibre是最好的选择。其次用Word打开这本书后将全部内容Copy到EmEditor里。第三步把所有的空格替换成段落标记。注意要用到正侧表达式。替换掉所有数字,替换掉所有标点符号,去掉多余的空行,使保证一行一个单词后保存为TXT格式。第四步将这个文档内容导入到Access。然后再来一个Group by 单词就搞定了。

统计后发现有时真的很佩服外国的作家。因为在一本40来万单词总量的小说里,有很多单词只使用一次。

下面以Winds of War为例

总词单词数为:37万,去年数据和标点后,总单词数为38万;共用单词:19530个(不重复),只使用过1次的单词7415个!是不是比我学过的单词量都大?下面看看前24个使用频率最高的单词:

字段1

cc

The

22421

and

10441

a

10217

to

8299

of

7737

In

7061

I

5099

s

4713

he

4622

you

4191

that

3994

was

3979

it

3740

His

3476

on

3118

with

2992

had

2709

at

2654

for

2426

said

2037

this

2013

But

1877

they

1849

her

1824

是不是很有意思?

根据上面的思路,我就用上千万单词的书来建立了个词库,以后每次遇到生词时都看看词频。如果很低,那就不背这个单词了。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值