周末在家把思路理了一边,先是用python实现了一下,但性能不太理想(100k/s),考虑到可能是由于动态语言的效率本身比较慢的原因,于是 将算法改成c语言实现,最终的结果是:1.8M/s(硬件环境:Intel Core Duo 1.73G, 内存2G)。对于这个结果来说,我还是不太满意,比较现在动辄都是上G的数据。这样的效率太慢了,下面放上代码,各位讨论下是否还有优化的余地或者这个算 法本身比较慢,或者这个方案是不可行的?
以下代码在Ubuntu9.04下编译并运行通过,测试数据是从je上随便搞了几篇文章。 gcc版本:4.3.3
- #include <stdio.h>
- #include <string.h>
- #include <sys/types.h>
- #include <dirent.h>
- #include <sys/stat.h>
- #include <time.h>
- #include <stdlib.h>
- #define STEP 10
- int count = 0; //文档个数
- char * str = NULL; //一个大的字符串,存储所有文档的内容
- int * ends; //文档的结束点集合
- int ends_len = 0, ends_mem_len = 10; //文档结束点的内存参数(当前长度,内存长度)
- int str_len = 0, str_mem_len = 10, str_unicode_len=0; //字符串的内存参数(字符串长度,字符串内存长度, 字符串unicode长度:即一个汉字占一个长度时的长度)
- struct id_map{ //一个文档在内存中的映射位置
- int id; //文档id
- int start; //字符串中的开始位置
- int end; //字符串中的结束位置
- };
- struct id_map * idmaps=NULL; //文档在内存中的映射地址
- int idmaps_len = 0, idmaps_mem_len=0; //文档映射参数
- //添加一个文档映射参数
- void addIdMap( struct id_map map){
- if (idmaps==NULL){ //如果数组还没有建立,就建立一个数组来进行存储
- idmaps = (struct id_map *)malloc( sizeof ( struct id_map)*10);
- }
- //如果当前的文档数已经到达了上一次建立的内存长度,则扩展内存,步长为10
- if (idmaps_len==idmaps_mem_len){
- idmaps_mem_len += STEP;
- idmaps = (struct id_map *)realloc(idmaps, sizeof ( struct id_map)*idmaps_mem_len);
- if (idmaps==NULL){
- printf("内存不足" );
- return ;
- }
- }
- *(idmaps+idmaps_len) = map;
- idmaps_len++;
- }
- //读取一个文本文件
- char * readTextFile( char * path){
- char ch; //当前的字符
- FILE *fp; //文件指针
- int result;
- fp = fopen(path, "rb" );
- if (fp!=NULL){ //如果文档读取成功
- if (str==NULL){
- //初始化str,ends的内存。这两个的增长步长均为10
- ends = (int *)malloc( sizeof ( int ) * 10);
- str = (char *)malloc(10);
- }
- if (!str){
- printf("内存不足" );
- fclose(fp);
- return NULL;
- }
- int unicode_ = 0;
- while ((ch=fgetc(fp))!=EOF){ //读取文件,一直读到最后,将内容放到str中。
- if (str_len == str_mem_len){
- str_mem_len += STEP;
- str = (char *)realloc(str, str_mem_len);
- if (str == NULL){
- printf("内存不足" );
- fclose(fp);
- return NULL;
- }
- }
- if (unicode_ == 0){ //如果上一个字符不是Unicode字符,则判断如果当前字符为unicode字符,则进入unicode计数。
- if (ch>=0 && ch<127){
- str_unicode_len++;
- }else {
- unicode_ = 1;
- }
- }else if (unicode_ == 1){
- unicode_ =2;
- }else if (unicode_ == 2){ //按照utf-8编码进行计算,每个汉字占三个字符。
- unicode_ = 0;
- str_unicode_len++;
- }
- *(str+str_len)=ch;
- str_len++;
- }
- //记录结束点
- if (ends_len == ends_mem_len){
- ends_mem_len += STEP;
- ends = (int *)realloc(ends, sizeof ( int ) * ends_mem_len);
- if (ends == NULL){
- printf("内存不足" );
- fclose(fp);
- return NULL;
- }
- }
- //printf("---%d,%d,%d/n", ends_len,ends_mem_len,str_unicode_len);
- //*(ends+ends_len) = str_unicode_len;
- *(ends+ends_len) = str_unicode_len;
- ends_len++;
- str = (char *)realloc(str, str_len);
- //*(str+len)='/0';
- fclose(fp);
- return str;
- }
- return NULL;
- }
- //读入一个文件夹内的所有文件
- int init_search_dir( char *path)
- {
- DIR *dir;
- struct dirent *s_dir;
- struct stat file_stat;
- char currfile[1024]={0};
- int len = strlen(path);
- printf("%s/n" ,path);
- if ( (dir=opendir(path)) == NULL)
- {
- printf("opendir(path) error./n" );
- return -1;
- }
- while ((s_dir=readdir(dir))!=NULL)
- {
- if ((strcmp(s_dir->d_name, "." )==0)||(strcmp(s_dir->d_name, ".." )==0))
- continue ;
- sprintf(currfile,"%s%s" ,path,s_dir->d_name);
- stat(currfile,&file_stat);
- if (S_ISDIR(file_stat.st_mode)){ //如果是文件夹,则递归读取
- init_search_dir(currfile);
- }else {
- printf("%-32s/tOK" ,currfile);
- //设置一个文档与 str的映射,并读取文档的内容
- struct id_map map;
- map.id=atoi(s_dir->d_name);
- map.start = str_unicode_len;
- readTextFile(currfile);
- map.end = str_unicode_len;
- addIdMap(map);
- printf("/t%d/n" , str_unicode_len);
- }
- count++;
- }
- closedir(dir);
- ends = (int *)realloc(ends, sizeof ( int ) * ends_len);
- return 0;
- }
- //计算一个utf-8字符串的长度(汉字占一个长度)
- int utf8_str_len( char * utf8_str){
- int length = 0, unicode_ = 0, i=0;
- for (;i<strlen(utf8_str);i++){
- if (unicode_ == 0){
- if (utf8_str[i]>=0 && utf8_str[i]<127){
- length++;
- }else {
- unicode_ = 1;
- }
- }else if (unicode_ == 1){
- unicode_ =2;
- }else if (unicode_ == 2){
- unicode_ = 0;
- length++;
- }
- }
- return length;
- }
- //查找该结束点是否存在(2分查找)
- int find_ends( int num){
- if (num>ends[ends_len-1]||num<ends[0]){
- return -1;
- }
- int end = ends_len;
- int start = 0;
- int index=ends_len / 2;
- while (1){
- if (ends[index]==num){
- return index;
- }
- if (start == end || index == start || index == end){
- return -1;
- }
- if (ends[index] > num){
- end = index;
- }else {
- start = index;
- }
- index = start + ((end-start) / 2);
- }
- }
- //主要函数。搜索所有文档中所有存在于该字符串相似的文档,算法出处及JAVA实现参见:http://www.blogjava.net/phyeas/archive/2009/02/15/254743.html
- void search( char * key){
- int key_len = utf8_str_len(key); //计算key的长度
- int i=0, j=0, j_ = 0, i_ = 0;
- //char barr[key_len][str_unicode_len];
- char * barr[key_len]; //
- //char narr[key_len][str_unicode_len];
- char * narr[key_len];
- //char darr[key_len][str_unicode_len];
- char * darr[key_len];
- //一个按照最大匹配度排序的文档序列。最大匹配度不可能大于key的长度+1,所以声明一个key_len+1长度的数组进行保存即可。数据格式类似:[[],[2,3],[5],[]]
- int * max_id_maps[key_len + 1]; //该数组的第n个下标表示最大匹配度为n的文档有哪些
- int max_id_maps_lens[key_len + 1], max_id_maps_mem_lens[key_len + 1];
- int key_ascii_len = strlen(key);
- struct timeval tpstart,tpend;
- float timeuse;
- gettimeofday(&tpstart,NULL);
- //初始化三个数组。i_,j_表示当前的坐标,i,j表示当前左右的字符串中的字符位置
- for (i_=key_len-1, i=key_ascii_len-1;i>=0 && i_>=0;i--,i_--){
- barr[i_] = (char *) malloc(str_unicode_len); //动态申请内存是为了解决c语言函数内声明数组的长度有限制
- narr[i_] = (char *) malloc(str_unicode_len);
- darr[i_] = (char *) malloc(str_unicode_len);
- int is_left_ascii = key[i]<0 || key[i] >= 127 ? 0 : 1;
- for (j=str_len-1, j_=str_unicode_len-1;j>=0&&j_>=0;j--,j_--){
- int is_right_ascii = str[j] < 0 || str[j] >= 127 ? 0 : 1;
- barr[i_][j_] = 0;
- if (!is_left_ascii || !is_right_ascii){
- if (!is_left_ascii && !is_right_ascii){
- int k = 2, eq=1;
- for (;k>=0;k--){
- if (i-k >= 0 && j-k>=0 && key[i-k] != str[j-k]){
- eq = 0;
- break ;
- }
- }
- barr[i_][j_] = eq;
- }else {
- barr[i_][j_] = 0;
- }
- }else {
- barr[i_][j_] = str[j] == key[i] || tolower(str[j]) == tolower(key[i]) ? 1 : 0;
- }
- darr[i_][j_] = 0;
- narr[i_][j_] = 0;
- int indexOfEnds = find_ends(j_);
- int n_right = 0, n_down = 0, n_rightdown = 0, d_right = 0, d_down = 0, d_rightdown = 0;
- if (indexOfEnds == -1 && j_!=str_unicode_len - 1){
- n_right = narr[i_][j_ + 1];
- d_right = darr[i_][j_ + 1];
- }
- if (i_!=key_len -1){
- n_down = narr[i_ + 1][j_];
- d_down = darr[i_ + 1][j_];
- }
- if (indexOfEnds == -1 && j_!=str_unicode_len - 1 && i_!=key_len -1){
- n_rightdown = narr[i_ + 1][j_ + 1];
- d_rightdown = darr[i_ + 1][j_ + 1];
- }
- n_rightdown += barr[i_][j_];
- narr[i_][j_] = n_right > n_down ? (n_right > n_rightdown ? n_right : n_rightdown) : (n_down > n_rightdown ? n_down : n_rightdown);
- if (barr[i_][j_]){
- darr[i_][j_] = d_rightdown + 1;
- }else if (n_right >= n_down){
- darr[i_][j_] = d_right;
- }else {
- darr[i_][j_] = d_down + 1;
- }
- if (!is_right_ascii){
- j-=2;
- }
- //printf("%d/t", narr[i_][j_]);
- }
- //printf("/n");
- //max_id_maps[i] = (int *)malloc(sizeof(int)*10);
- max_id_maps_mem_lens[i_] = 0;
- max_id_maps_lens[i_] = 0;
- if (!is_left_ascii){
- i-=2;
- }
- }
- //max_id_maps[key_len] = (int *)malloc(sizeof(int)*10);
- max_id_maps_mem_lens[key_len] = 0;
- max_id_maps_lens[key_len] = 0;
- int k=0;
- //计算最大匹配度和最优匹配路径长度。并将其放到如到max_id_maps中
- for (k=0;k<idmaps_len;k++){
- int end=idmaps[k].end, j=idmaps[k].start, end_i = key_len, max_ = 0, min_ = -1;
- while (j<end){
- int temp_end_i = -1;
- for (i=0;i<end_i;i++){
- if (barr[i][j]){
- if (temp_end_i==-1){
- temp_end_i = i;
- }
- if (narr[i][j] > max_){
- max_ = narr[i][j];
- }
- if (min_ == -1 || darr[i][j] < min_){
- min_ = darr[i][j];
- }
- }
- }
- if (temp_end_i != -1){
- end_i = temp_end_i;
- }
- j++;
- }
- if (max_ != 0){
- if (max_id_maps_mem_lens[max_] == 0){
- max_id_maps[max_] = (int *)malloc( sizeof ( int )*10);
- max_id_maps_mem_lens[max_] = 10;
- }else if (max_id_maps_mem_lens[max_] == max_id_maps_lens[max_]){
- max_id_maps_mem_lens[max_] += STEP;
- max_id_maps[max_] = (int *)realloc(max_id_maps[max_], sizeof ( int )*max_id_maps_mem_lens[max_]);
- }
- *(max_id_maps[max_] + max_id_maps_lens[max_]) = idmaps[k].id;
- max_id_maps_lens[max_]++;
- }
- }
- //-----------------计时,计算性能
- gettimeofday(&tpend,NULL);
- timeuse=1000000*(tpend.tv_sec-tpstart.tv_sec)+tpend.tv_usec-tpstart.tv_usec;
- timeuse/=1000000;
- printf("Used Time:%f/n" ,timeuse);
- for (i=0;i<=key_len;i++){
- printf("%d -- " ,i);
- for (j=0;j<max_id_maps_lens[i];j++){
- printf("%d/t" , max_id_maps[i][j]);
- }
- printf("/n" );
- }
- //--------------计时结束
- //释放在这个函数中申请的动态内存。
- for (i=0;i<=key_len;i++){
- if (max_id_maps_mem_lens[i]>0){
- //printf("%d,",max_id_maps_mem_lens[i]);
- free(max_id_maps[i]);
- }
- if (i!=key_len){
- free(barr[i]);
- free(narr[i]);
- free(darr[i]);
- }
- }
- //testPrint(&narr, key_len, str_unicode_len);
- }
- //释放程序中申请的动态内存
- void freeMemory(){
- free(ends);
- free(idmaps);
- free(str);
- }
- int main(){
- init_search_dir("/home/phyeas/test/" );
- search("Java云计算" );
- //search("BCXCADFESBABCACA");
- //init_search_dir("/home/phyeas/test/test2/");
- //int i=0;
- freeMemory();
- return 0;
- }