如何提取网页中所有链接(C++) 转载

IE有几个有用的接口,我们可以用它来提取网页所有链接。

paragraph.gif 一、基本原理

首先是用IHTMLDocument2的get_links,来获取IHTMLElementCollection接口,再通过IHTMLElementCollection来获取IHTMLAnchorElement,而IHTMLAnchorElement接口的get_href就是我们想要的,通过循环获取,我们就可以得到网页的所有链接了!

paragraph.gif 二、具体代码

ContractedBlock.gif ExpandedBlockStart.gif Code
{
TCHAR HostName[
2*MAX_PATH];
CComPtr
<IDispatch> spDispatch;
CComQIPtr
<IHTMLDocument2, &IID_IHTMLDocument2> pDoc2;
CComPtr
<IHTMLElementCollection> pElementCol;
CComPtr
<IHTMLAnchorElement> pLoct;
// TODO: Add your control notification handler code here
int n = m_LinksList.GetItemCount();//GetCount();
for (int i = 0; i < n; i ++){
IWebBrowser2 
*pBrowser = (IWebBrowser2 *)m_LinksList.GetItemData(i);
if (pBrowser){
pBrowser
->Release();
}
}
m_LinksList.DeleteAllItems();
m_LinksNum 
= 0;
Log(
"**************************************************************");
Log(
"\r\n");
if (m_spSHWinds){
int n = m_spSHWinds->GetCount();
for (int i = 0; i < n; i++){
_variant_t v 
= (long)i;
IDispatchPtr spDisp 
= m_spSHWinds->Item(v);
SHDocVw::IWebBrowser2Ptr spBrowser(spDisp);   
//生成一个IE窗口的智能指针
if (spBrowser){
if (SUCCEEDED(spBrowser->get_Document( &spDispatch)))
pDoc2 
= spDispatch;
if(pDoc2!=NULL)
{
if (SUCCEEDED(pDoc2->get_links(&pElementCol)))
{
//    AfxMessageBox("IHTMLElementCollection");
long p=0;
if(SUCCEEDED(pElementCol->get_length(&p)))
if(p!=0)
{
m_LinksNum 
= m_LinksNum+p;
UpdateData(FALSE);
for(long i=0;i<=(p-1);i++)
{
BSTR String;
_variant_t index 
= i;
if(SUCCEEDED(pElementCol->item( index, index, &spDispatch)))
if(SUCCEEDED(spDispatch->QueryInterface( IID_IHTMLAnchorElement,(void **&pLoct)))
pLoct
->get_href(&String);
ZeroMemory(HostName,
2*MAX_PATH);
lstrcpy(HostName,_bstr_t(String));
m_LinksList.InsertItem(i,HostName);
m_LinksList.SetCheck(i,TRUE);
pLoct
->get_hostname(&String);
ZeroMemory(HostName,
2*MAX_PATH);
lstrcpy(HostName,_bstr_t(String));
if(lstrlen(HostName))
{
m_LinksList.SetItemText(i,
1,HostName);
Log(HostName );
Log(
"\r\n");
}
}
}
}
}
}
}
}
}

本程序在VC7+WINXP下编译通过,详细请看源代码

转载于:https://www.cnblogs.com/OceanChen/archive/2009/01/29/1381379.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值