写个小程序有效突破SAT词汇关

最新推荐文章于 2024-06-13 12:18:48 发布

Hades1996

最新推荐文章于 2024-06-13 12:18:48 发布

阅读量1.6k

点赞数

分类专栏： C/C++ 自写软件

本文链接：https://blog.csdn.net/hades1996/article/details/9347123

版权

C/C++ 同时被 2 个专栏收录

11 篇文章 0 订阅

订阅专栏

自写软件

2 篇文章 0 订阅

订阅专栏

今天正在扫荡刚看完的小说《The Invisible Man》的生词，突然觉得如果我可以找到一本小说，里面涵盖特别多的SAT词汇，这样就可以有针对性地看小说了，至少能先把词汇恶补一下。

小程序实现思想：

一将barron 3500单词列表的单词抽出来换算为CRC码,存放在文件A中。之所以换算成CRC码是因为觉得字符串比较可
能太慢？虽然比较CRC也不会快多少倍，尽量快点吧

二把单词的CRC按升序排列(初步想而已，也有可能因为我闲麻烦直接就这样不排序好了哈哈)

三把小说里的单词都抽出来，逐个换为CRC码，再用二分法查找有序CRC文件里是否存在这个单词，如果存在，这个小说就加1分，分越多，这本小说含金量(高级词汇量)越高

随便起个程序名吧，FMIN(Find the most informative novel)

crc.h

unsigned int crc32(unsigned char *buf, int len);

crc.c

#include <stdio.h>
#include "crc.h"

static unsigned int   CRC32[256];
static char   init = 0;

//初始化表
static void init_table()
{
    int   i,j;
    unsigned int   crc;
    for(i = 0;i < 256;i++)
    {
         crc = i;
        for(j = 0;j < 8;j++)
        {
            if(crc & 1)
            {
                 crc = (crc >> 1) ^ 0xEDB88320;
            }
            else
            {
                 crc = crc >> 1;
            }
        }
         CRC32[i] = crc;
    }
}

//crc32实现函数
unsigned int crc32(unsigned char *buf, int len)

{
    unsigned int ret = 0xFFFFFFFF;
    int   i;
    if( !init )
    {
         init_table();
         init = 1;
    }
    for(i = 0; i < len;i++)
    {
         ret = CRC32[((ret & 0xFF) ^ buf[i])] ^ (ret >> 8);
    }
     ret = ~ret;
    return ret;
}

FMIN.C，这是将单词列表写成CRC的代码

#include <stdio.h>
#include <stdlib.h>
#include <windows.h>
#include "crc.h"



int main(int argc, char *argv[])
{
	//准备工作
	int i=0,j=0,k=0;
	//单词列表
	char szFileName[]="c:\\1.txt";
	//转换之后的CRC
	char szFileNameCRC[]="c:\\CRC.txt";
	//转换之后的CRC文件大小
	int CRCFilesize=3500*4;
	//转换之后的CRC数组
	int Barron3500CRC[3500*4];
	//临时文件句柄
	HANDLE fhandle;
	//单词列表文件的大小
	long lFileSize;
	//放单词列表的缓冲区
	char *wordbuffer=malloc(40000);
	//临时单词缓冲区
	char *eachword=malloc(20);
	//全部缓冲区填零
	memset(wordbuffer,0,40000);
	memset(eachword,0,20);
	memset(Barron3500CRC,0,3500*4);
	fhandle=CreateFile(szFileName, GENERIC_READ, FILE_SHARE_READ, NULL, OPEN_EXISTING, NULL, NULL);
	if(fhandle == INVALID_HANDLE_VALUE)
	{
	MessageBox(NULL,"读取单词列表失败","Tips",NULL);
	}
	lFileSize=GetFileSize(fhandle,NULL);
	ReadFile(fhandle,wordbuffer,lFileSize,&lFileSize,NULL);
	//计算出每个单词的CRC放在数组里
	while(wordbuffer[i]!='#')
	{
		if(wordbuffer[i]!=0x0D && wordbuffer[i]!=0x0A)
		{
			eachword[j++]=wordbuffer[i++];
		}
		else
		{
			if(wordbuffer[i++]==0x0D)
			{
				Barron3500CRC[k++]=crc32(eachword,strlen(eachword));
				memset(eachword,0,20);
				j=0;
			}
		}
	}
	CloseHandle(fhandle);
	//CRC数组写入文件
	fhandle=CreateFile(szFileNameCRC, GENERIC_WRITE, FILE_SHARE_WRITE, NULL, OPEN_EXISTING, NULL, NULL);
	WriteFile(fhandle,Barron3500CRC,CRCFilesize,&CRCFilesize,NULL);
	CloseHandle(fhandle);
}

这是搜索小说中的单词，对照CRC的代码(同样也要包含CRC那两个文件)

#include <stdio.h>
#include <stdlib.h>
#include <windows.h>
#include "crc.h"


char *GetWord(char *wordbuffer,long index);
int WordExist(unsigned int wordCRC,int *Barron3500);


int main(int argc, char *argv[])
{
	//准备工作
	int i=0,j=0,k=0;
	HANDLE fhandle;
	char szFileNameCRC[]="c:\\CRC.txt";
	char szFileNameNV[]="c:\\2.txt";
	int CRCFilesize=3500*4;
	long lFileSize=0;
	int Barron3500CRC[3500*4];
	int eachCRC=0;
	int bWordExist=0;
	int bFirstTime=0;
	int score=0;
	char *eachword=malloc(20);
	char *wordbuffer=malloc(2000);
	memset(eachword,0,20);
	memset(wordbuffer,0,2000);
	fhandle=CreateFile(szFileNameCRC, GENERIC_READ, FILE_SHARE_READ, NULL, OPEN_EXISTING, NULL, NULL);
	if(fhandle == INVALID_HANDLE_VALUE)
	{
		MessageBox(NULL,"读取单词列表失败","Tips",MB_OK);
	}
	ReadFile(fhandle,Barron3500CRC,CRCFilesize,&CRCFilesize,NULL);
	CloseHandle(fhandle);


	fhandle=CreateFile(szFileNameNV, GENERIC_READ, FILE_SHARE_READ, NULL, OPEN_EXISTING, NULL, NULL);
	if(fhandle == INVALID_HANDLE_VALUE)
	{
		MessageBox(NULL,"读取单词列表失败","Tips",NULL);
	}
	lFileSize=GetFileSize(fhandle,NULL);
	ReadFile(fhandle,wordbuffer,lFileSize,&lFileSize,NULL);


	while(wordbuffer[i]!='#')
	{
		if(wordbuffer[i]==0x20)
			bFirstTime=1;
			i++;
			if(wordbuffer[i]==0x20 && bFirstTime==1)//单词结束
			{
				//得到单词
				eachword=GetWord(wordbuffer,i-1);
				//转CRC码
				eachCRC=crc32(eachword,strlen(eachword));
				//匹配
				bWordExist=WordExist(eachCRC,Barron3500CRC);
				//加分
				if(bWordExist==1)
					score++;
				bFirstTime=0;
			}
	}
	CloseHandle(fhandle);
	printf("this novel got a score of %d\n",score);
}


char *GetWord(char *wordbuffer,long index)
{
	int j=0;
	char *ret=malloc(20);
	memset(ret,0,20);
	while(wordbuffer[index--]!=0x20);
	index=index+2;
	while(wordbuffer[index]!=0x20)
	{
		ret[j++]=wordbuffer[index++];
	}
	return ret;
}


int WordExist(unsigned int wordCRC,int *Barron3500)
{
	int i;
	for(i=0;i<3500;i++)
	{
		if(wordCRC==Barron3500[i])
			return 1;
	}
	return 0;
}

很好，运行得不错，但是又出现了两个问题：

单词是复数怎么办，是过去式怎么办，是过去分词怎么办？？

由于是小说，所以很多动词都不会出现一般式，复数的出现就更加频繁了。

这样一来似乎只有形容词和副词的甄别比较有效了

http://dict.youdao.com/search?q=dodge&keyfrom=fanyi.smartResult

这个翻译网页能够把过去式过去分词和复数都搞出来，而且网页源码中也会出现，可以自己写个小程序先处理一下列表,就是说把列表中的动词名词的各种形态都加上去

另外有一个问题就是，比如说我读的这本小说《The Invisible Man》，那么单词“Invisible” 无疑会出现几十次，那么如果其他小说里面某个同样的高级词汇如果也出现了几十次

，或者它的原型，复数和过去分词交替出现很多次，那不是影响了这本小说的真正含金量吗，所以程序也要把那个单词和单词出现的数量输出一下，以供参考

Hades1996

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
2
评论
写个小程序有效突破SAT词汇关

今天正在扫荡刚看完的小说《The Invisible Man》的生词，突然觉得如果我可以找到一本小说，里面涵盖特别多的SAT词汇，这样就可以有针对性地看小说了，至少能先把词汇恶补一下。小程序实现思想：一将barron 3500单词列表的单词抽出来换算为CRC码,存放在文件A中。之所以换算成CRC码是因为觉得字符串比较可能太慢？虽然比较CRC也不会快多少倍，尽量快点吧二把单词的C
复制链接

扫一扫