第二周周一DailyReporting——PM（李忠）

最新推荐文章于 2012-11-23 23:20:00 发布

weixin_30421525

最新推荐文章于 2012-11-23 23:20:00 发布

阅读量107

点赞数

原文链接：http://www.cnblogs.com/DOOM-scse/archive/2012/11/05/2756116.html

版权

今天小组工作进展顺利，各个人的具体工作可以详见每个人写得报告；下面我简述了一下：

（1）潘学：Download部分遇到问题，他的理解和我的理解不一样，进度受损，但是Download的技术已经摸索的差不多；

（2）张孝祖：Upload部分demo已经完成，明天进入测试阶段；

（3）刘宇翔：match部分从找到的800多篇文档里读出来进行测试；

（4）陈伯雄：search部分更改后的框架设计出来，明天建倒排表，加入中文分词系统

（5）李忠：中文分词系统的完成，供明天match和search部分用；

明天潘学测试Download部分，张孝祖测试Upload部分；刘宇翔往match里面加入中文分词系统，陈伯雄往search部分里加入分词系统，并建立倒排表。

我今天的工作，中文分词系统的代码

using System.IO;

using Lucene.Net;
using Lucene.Net.Analysis;
using Lucene.China;

namespace match0
{
    class ChineseWordSegmentation
    {
        //实现中文分词的方法（中文英文都能实现）
        static public List<string> word_segmentation(string sourceWord) {
            List<string> childWord=new List<string>();

            StringReader sr = new StringReader(sourceWord);
            Analyzer analyzer = new Lucene.China.ChineseAnalyzer();
            TokenStream stream = analyzer.TokenStream(null, sr);

            Token token = stream.Next();
            while (token != null) {
                string temps = token.ToString();
                temps = temps.Replace("(", "");
                char[] tempc = { ',' };
                temps=temps.Split(tempc)[0];

                childWord.Add(temps);

                token = stream.Next();
            }

            return childWord;
        }
    }
}