JAVA基于《美国当代英语语料库COCA词频20000》PDF提取的纯单词文件

24 篇文章 10 订阅
3 篇文章 0 订阅

最近在背单词,为了能提高效率,找到一个比较有名的《美国当代英语语料库COCA词频20000 》

来源应该是:http://www.wordfrequency.info/,当然是收费的。

免费的可以在这里下载pdf文件:http://vdisk.weibo.com/s/ctvvyfhPYLfj

由于是pdf文件,且包含大量其他不太有用的信息,就想到提纯。

花了半小时写了个小程序,对pdf文件进行提炼。

这个下载https://sourceforge.net/projects/pdfbox/?source=typ_redirect的相关pdf读取的dll。

 

 引用上面4个dll,代码如下

using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;
using System.Threading.Tasks;
using org.pdfbox.pdmodel;
using org.pdfbox.util;
using System.IO;

namespace ConsoleApplication6
{
    class Program
    {
        public static void pdf2txt(FileInfo pdffile, FileInfo txtfile)
        {

            PDDocument doc = PDDocument.load(pdffile.FullName);

            PDFTextStripper pdfStripper = new PDFTextStripper();

            string text = pdfStripper.getText(doc);

            StreamWriter swPdfChange = new StreamWriter(txtfile.FullName, false, Encoding.GetEncoding("gb2312"));

            swPdfChange.Write(text);

            swPdfChange.Close();

        }
        static void Main(string[] args)
        {
            pdf2txt(new FileInfo(@"C:\Users\pchome\Desktop\美国当代英语语料库COCA词频20000.pdf"), new FileInfo(@"C:\Users\pchome\Desktop\output.txt"));

        }
     
    }
}

生成output.txt文件,里面包含了pdf文件里的所有内容,不过是排除了格式的。内容大致如下:

然后按照文本文件的排版规律,写了个提纯程序:

using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;
using System.Threading.Tasks;
using org.pdfbox.pdmodel;
using org.pdfbox.util;
using System.IO;

namespace ConsoleApplication6
{
    class Program
    {
        static void Main(string[] args)
        {
            FileStream fs = new FileStream(@"C:\Users\pchome\Desktop\ok.txt", FileMode.Create);
            StreamWriter sw = new StreamWriter(fs);

            StreamReader sr = File.OpenText(@"C:\Users\pchome\Desktop\output.txt");
            string str = "";
            int counter = 0;
            string word;
            string chix;
            
            while ((str = sr.ReadLine()) != null)
            {
                var lst = str.Split(' ');
                try
                {
                    int seq = Convert.ToInt32(lst[0]);
                    if (counter + 1 == seq)
                    {
                        counter += 1;//词频
                        word = Convert.ToString(lst[1]);//单词
                        chix = Convert.ToString(lst[2]);//词性
                        string content = counter.ToString() + " " + word + "    " + chix;
                        sw.WriteLine(content);
                        Console.WriteLine(content);
                    }
                }
                catch
                {
                }
            }

            sr.Close();
            //清空缓冲区
            sw.Flush();
            //关闭流
            sw.Close();
            fs.Close();

        }
    }
}

最终得到了一个包含 词频 + 单词 + 词性 的文本文件。

可以各位同学导入到其他背单词软件里,进行学习了

 

文件下载地址

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
美国当代英语语料库20000词频表.xlsx是一个收集了美国当代英语文本中最常用的20000个词语及其词频的电子表格文件。 该词频表包含了在美国当代英语语料库中最频繁出现的单词列表。这些单词的排序是基于它们在大量英语文本中出现的频率。词频是指一个词语在语料库中出现的次数,通过对这些次数进行统计和排序,可以得出一个单词的重要性或常用程度。这些常用的词语是学习英语、教授英语以及进行文本分析和处理的重要资源。 这个词频表可以用于多种目的。对于英语学习者来说,它可以帮助他们了解和掌握最常见的单词,提高他们的词汇量和阅读能力。对于英语教师来说,它可以作为一个参考资源,帮助他们编写教材和设计教学计划。对于语言学家和研究人员来说,这个词频表可以用于研究英语的词法、语法和语义特征,探索语言变化和语言使用的模式。 该词频表的使用需要具备基本的电子表格操作技能,例如打开、筛选、排序等。用户可以按照自己的需求利用这个词频表进行定制,例如可以按照词频排序,查找特定的单词,或者进行数据分析和统计。此外,用户还可以将词频表与其他相关数据和工具结合使用,以便更好地理解和应用这些常用的英语词汇。 总之,美国当代英语语料库20000词频表.xlsx是一个重要的资源,可以为英语学习者、教师和研究人员提供有关美国当代英语中常见词汇的信息,促进他们的学习、教学和研究工作。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值