今天小组工作进展顺利,各个人的具体工作可以详见每个人写得报告;下面我简述了一下:
(1)潘学:Download部分遇到问题,他的理解和我的理解不一样,进度受损,但是Download的技术已经摸索的差不多;
(2)张孝祖:Upload部分demo已经完成,明天进入测试阶段;
(3)刘宇翔:match部分从找到的800多篇文档里读出来进行测试;
(4)陈伯雄:search部分更改后的框架设计出来,明天建倒排表,加入中文分词系统
(5)李忠:中文分词系统的完成,供明天match和search部分用;
明天潘学测试Download部分,张孝祖测试Upload部分;刘宇翔往match里面加入中文分词系统,陈伯雄往search部分里加入分词系统,并建立倒排表。
我今天的工作,中文分词系统的代码
using System.IO;
using Lucene.Net;
using Lucene.Net.Analysis;
using Lucene.China;
namespace match0
{
class ChineseWordSegmentation
{
//实现中文分词的方法(中文英文都能实现)
static public List<string> word_segmentation(string sourceWord) {
List<string> childWord=new List<string>();
StringReader sr = new StringReader(sourceWord);
Analyzer analyzer = new Lucene.China.ChineseAnalyzer();
TokenStream stream = analyzer.TokenStream(null, sr);
Token token = stream.Next();
while (token != null) {
string temps = token.ToString();
temps = temps.Replace("(", "");
char[] tempc = { ',' };
temps=temps.Split(tempc)[0];
childWord.Add(temps);
token = stream.Next();
}
return childWord;
}
}
}