HTML代码过滤技术-CSDN博客

参考资料：MSDN的《Pluggable Protocols Overview》

参考示例：MSDN提供的

http://support.microsoft.com/default.aspx?scid=kb;EN-US;q260840#appliesto

另一示例是用Delphi写的：http://www.guicode.com/scr/mimefilter.zip

要实现HTML代码过滤必需注册一个或多个MIME过滤器（Pluggable MIME Filter）。

MIME过滤器是一个COM对象，必需实现IInternetProtocolSink和IInternetProtocol接口。MIME过滤器可以注册成临时或者永久的，如果同时注册多个临时的MIME过滤器，那么后注册的对象先被调用！

要如何注册一个MIME过滤器？要注册一个永久的MIME过滤器，你必需在注册表

的HKEY_CLASSES_ROOT"PROTOCOLS"Filter键下添加一个子键，子键的名称是你要

注册的MIME类型

，在添加的子键下必需有一个名为CLSID 的字符串值，值的内容就是你

提供的COM对象的CLSID。该键的默认值可以是关于你的对象的简单描述。如果你用ATL

了开发，你可以在对象的RGS文件中添加如下内容：

HKCR

{

NoRemove PROTOCOLS

{

NoRemove Filter

{

ForceRemove 'text/html' = s 'XMLMimeFilter MIME Filter Sample'

{

val CLSID = s '{53B95211-7D77-11D2-9F80-00104B107C96}'

}

上面的代码来自文章开头提到的示例。’XMLMimeFilter MIME Filter Sample’和

{53B95211-7D77-11D2-9F80-00104B107C96}'都要换成你自已的！

如果要注册临时的MIME过滤器，就要通过IInternetSession接口（取消注册也

用该接口），下面提供的注册一个临时过滤器的代码：

CComPtr<IInternetSession> m_spSession ;

CComPtr<IClassFactory> m_spClassFactoryMime ;

hr = ::CoGetClassObject( CLSID_MimeFilter, CLSCTX_SERVER,

NULL, IID_IClassFactory,

(void**)&m_spClassFactoryMime );

if( hr == S_OK )

{

if( ::CoInternetGetSession( 0, &m_spSession, 0) ==S_OK )

{

m_spSession->RegisterMimeFilter(m_spClassFactoryMime,

CLSID_MimeFilter, L"text/html" );

}

这里的CLSID_MimeFilter就是你的对象的CLSID。

MIME的类型有许多种，要了解这些信息可以查看MSDN的附录

《MIME Type Detection in Internet Explorer 4.0》，但实际的类型要比这里列的多得多。

要了解你的电脑注册的MIME类型，可以查看注册表的[HKEY_CLASSES_ROOT"MIME"

Database"Content Type]键。也可以通过调用FindMimeFromData函数来得到文件的对应MIME

类型，下面的代码示例了得到JS文件的MIME类型：

LPWSTR pwzMimeOut ;

FindMimeFromData( NULL , L"time.js" , 0 , 0 , 0 , 0 , &pwzMimeOut , 0 );

得到的MIME类型是：application/x-javascript。

一般情况下，要过滤HMTL页面，可以注册text/html类型。你也可以根据实际情况

通过调用RegisterMimeFilter注册多个不同的MIME过滤器。

注册一个临时或永久的MIME过滤器后，接下来的工作就是实现MIME过滤器对象。

在实现之前，先看一下《Pluggable Protocols Overview》一文中关于MIME过滤器与WEB

处理器（transaction handler，即urlmon.dll）之间接口的调用的描述（注：urlmon.dll内部实现了IInternetProtocol和IInternetProtocolSink接口）：

1、 WEB处理器调用MIME过滤器的IInternetProtocolRoot::Start方法（IInternetProtocol

从IInternetProtocolRoot派生）；

2、 WEB处理器先后调用MIME过滤器的IInternetProtocolSink::ReportProgress 和

IInternetProtocolSink::ReportData方法；

3、 MIME过滤器调用WEB处理器的IInternetProtocol::Read方法；

4、 MIME过滤器调用WEB处理器的IInternetProtocolSink::ReportData方法；

5、 WEB处理器调用MIME过滤器的IInternetProtoco::Read方法；

因此，要实现MIME过滤器，有几个重要的方法：

1、IInternetProtocolRoot::Start方法：

HRESULT Start(

[in] LPCWSTR szUrl,

[in] IInternetProtocolSink *pOIProtSink,

[in] IInternetBindInfo *pOIBindInfo,

[in] DWORD grfPI,

[in] DWORD dwReserved

);

作为MIME过滤对象，szUrl传入的是MIME的类型（如果是name space handlers对象，

则该参数为一个即将下载或解析的URL）。若是你想得到URL，可以通过pOIBindInfo 接

口得到，下面是示例：

LPOLESTR pwzUrl ;

ULONG uElFetched ;

pIBindInfo->GetBindString( BINDSTRING_URL , &pwzUrl , 1 , &uElFetched ) ；

pOIProtSink是由urlmon.dll提供的IInternetProtocolSink接口，因为在后面的处理过程中，需要调用到该接口，所以要将它保存；

grfPI是一个枚举变量，必需包含PI_FILTER_MODE标志，表示该对象运行在filter模式中。

dwReserved是一个指向PROTOCOLFILTERDATA结构的指针，该结构的pProtocol成员是由urlmon.dll提供的IInternetProtocol接口，因为在后面的处理过程中需要调用到该接口，所以要将它保存。实际上该接口也可以通过pOIProtSink参数调用QueryInterface得到，同样PROTOCOLFILTERDATA结构的pProtocolSink与pOIProtSink都是指向同一个接口。

在Start方法中，我们必需做的实际上只是保存urlmon.dll提供的IInternetProtocolSink

和IInternetProtocol接口。

2、IInternetProtocolSink::ReportProgress方法：