搜索引擎时间分析框架

原创于 2006-09-07 16:04:00 发布 · 1.2k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#搜索引擎 #框架 #class #list

关于ifDateUnit函数的分析

bool NewsPageAnalysis::ifDateUnit(int unit, tParsedDate & datep, bool & iffutretime)

{
}

函数包括如下启发式规则，举例如下：

1. 如果文本单元是连接,那么不可能是日期

2. 如果文本单元出现在开头8个字节或者80个字节以后的部分都不可能是日期?

3. 如果汉字百分比超过85%则不是日期

4. 。。。

5. 合法日期模式

函数大量硬编码，每个过程端彼此独立，却在一个函数中堆砌，每一条启发式规则都不断堆砌在这个函数中，该函数的进化性不强。

该函数执行了两个过程一个是判断文本中是否含日期，第二个过程是如果是日期给datep赋值，破坏了单一责任原则。

比较好的修改方法如下:伪码形式

Abstract class DatePatternBase {定义接口bool parse(int unit bool & iffutretime)=0,bool PatternsMode()=0}

Abstract class TextUnitDatePattern: DatePatternBase //合法模式

Abstract class TextUnitDateAntiPattern: DatePatternBase //非法模式

Class LinkNotDataPattern: TextUnitDateAntiPattern

Class LocationExpNotDataPattern: TextUnitDateAntiPattern

Class ChineseWordRationHighNotDataPattern: TextUnitDateAntiPattern

Class ValidDataPattern: TextUnitDatePattern

Class DataAnalysisFramework

[

Public: bool ifDateUnit(int unit bool & iffutretime)

Create();

Private: bool RegisterAnalysisPatterns(DatePatternBase patterns)

Private: list< DatePatternBase > m_ptterns;

]

Create()过程中大概含有以下代码

{

RegisterAnalysisPatterns(new LinkNotDataPattern());

RegisterAnalysisPatterns(new LocationExpNotDataPattern ());

RegisterAnalysisPatterns(new ChineseWordRationHighNotDataPattern ());

RegisterAnalysisPatterns(new ValidDataPattern());

}

ifDateUnit()函数中含有以下代代码

{

For i=0 to m_ptterns.len;

If(m_patterns[i].mode = AntiPatterns)

{
if(m_patterns[i]. parse (unit,iffutretime))

{

Return false;

}

}

Else if(m_patterns[i].mode = ValidPatterns)

{

Return m_patterns[i]. parse (unit,iffutretime));

}

Else{}

}

这样无论是修改还是增加新的启发式规则都比较简洁。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。