文本分析的三种典型设计模式

本文介绍了文本分析的三种设计模式:事件驱动的Parse-Handler模型,如SAX模型;Tokenizer模型,类似编译器的词法分析器,通过将文本分解为token;以及DOM模型,将文档完整读入内存并提供数据访问接口。DOM模型虽然内存消耗较大,但提供最完整服务,适合处理不需要即时响应的应用。作者倾向于使用DOM模型,因其模块清晰、内存管理优化空间大且通常能实现更好的性能。
摘要由CSDN通过智能技术生成

文本分析的三种典型设计模式

许式伟
2004-10-27


事件驱动:Parse-Handler模型(如:xml之SAX模型)

该模型主要有Parser和Handler两个组件。其原型大体如下:

class  xxxHandler
{
public :
   
//  any event sended from Parser
   ...
};

class  xxxParser
{
public :
   xxxxParser(InputSource
*  source);
 
   HRESULT parse(xxxxHandler
*  handler)
   {
      
//  analyze source and send event to handler
      ...
   }
};

该模型不规定Handler类型的详细规格,由Parser的实现者根据具体情况而定。
这种模型的核心思想就是由Parser类来具体分析文本的格

评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值