如何提取网页中所有链接

转载 2016年04月11日 17:16:43

见过“网际快车”的“使用网际快车下载全部链接”这个功能吗?想实现它,我们可以这样做:

IE有几个有用的接口,我们可以用它来提取网页所有链接。

一、基本原理

首先是用IHTMLDocument2的get_links,来获取IHTMLElementCollection接口,再通过IHTMLElementCollection来获取IHTMLAnchorElement,而IHTMLAnchorElement接口的get_href就是我们想要的,通过循环获取,我们就可以得到网页的所有链接了!

二、具体代码

{
  TCHAR HostName[2*MAX_PATH];
  CComPtr spDispatch;
  CComQIPtr pDoc2;
  CComPtr pElementCol;
  CComPtr pLoct;
  // TODO: Add your control notification handler code here
  int n = m_LinksList.GetItemCount();//GetCount();
  for (int i = 0; i < n; i ++){
    IWebBrowser2 *pBrowser = (IWebBrowser2 *)m_LinksList.GetItemData(i);
    if (pBrowser){
      pBrowser->Release();
    }
  }
  m_LinksList.DeleteAllItems();
  m_LinksNum = 0;
  Log("**************************************************************");
  Log("\r\n");
  if (m_spSHWinds){
    int n = m_spSHWinds->GetCount();
    for (int i = 0; i < n; i++){
      _variant_t v = (long)i;
      IDispatchPtr spDisp = m_spSHWinds->Item(v);
      SHDocVw::IWebBrowser2Ptr spBrowser(spDisp);  //生成一个IE窗口的智能指针
      if (spBrowser){
        if (SUCCEEDED(spBrowser->get_Document( &spDispatch)))
          pDoc2 = spDispatch;
        if(pDoc2!=NULL)
        {
          if (SUCCEEDED(pDoc2->get_links(&pElementCol)))
          {
            //  AfxMessageBox("IHTMLElementCollection");
            long p=0;
            if(SUCCEEDED(pElementCol->get_length(&p)))
              if(p!=0)
              { 
                m_LinksNum = m_LinksNum+p;
                UpdateData(FALSE);
                for(long i=0;i<=(p-1);i++)
                {
                  BSTR String;
                  _variant_t index = i;
                  if(SUCCEEDED(pElementCol->item( index, index, &spDispatch)))
                  if(SUCCEEDED(spDispatch->QueryInterface( IID_IHTMLAnchorElement,(void **) &pLoct)))
                  pLoct->get_href(&String);
                  ZeroMemory(HostName,2*MAX_PATH);
                  lstrcpy(HostName,_bstr_t(String));
                  m_LinksList.InsertItem(i,HostName);
                  m_LinksList.SetCheck(i,TRUE);

                  pLoct->get_hostname(&String);
                  ZeroMemory(HostName,2*MAX_PATH);
                  lstrcpy(HostName,_bstr_t(String));
                  if(lstrlen(HostName))
                  {
                    m_LinksList.SetItemText(i,1,HostName);
                    Log(HostName );
                    Log("\r\n");
                  }

                }
              }
          }
        }
      }
    }
  }
}

Delphi7高级应用开发随书源码

  • 2003年04月30日 00:00
  • 676KB
  • 下载

获取网页中的所有超链接

using System; using System.Collections.Generic; using System.ComponentModel; using System.Data; ...

正则表达式入门知识+用它实现在一个网页中获取所有的链接地址

概念:正则表达式是一种计算机科学的概念、它通常用来检索和替换那些符合规则的文本或者字符串。现在很多的程序设计语言计都支持利用正则表达式来进行字符串的操作,有java、c++、python、javasc...
  • lu93it
  • lu93it
  • 2016年09月14日 08:55
  • 2085

获取指定URl页面中所有链接

获取指定URl页面中所有链接

【搜索引擎Jediael开发笔记3】使用HtmlParser提取网页中的链接

1、相关资料 官方文档:http://htmlparser.sourceforge.net/samples.html API:http://htmlparser.sourceforge.net/jav...

使用Java抓取网页中所有的链接

import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import ...

提取网页中所有链接的功能

  • 2013年10月03日 13:30
  • 161KB
  • 下载

提取页面中所有链接

  • 2013年01月31日 17:52
  • 2KB
  • 下载

Swift - 使用NSDataDetector进行URL验证,及提取字符串中所有链接

要匹配字符串里的URL链接地址,我们可以使用 NSRegularExpression 进行正则匹配,具体用法可以看我原来写的这篇文章:Swift - 正则表达式的使用(附用户名、邮箱、URL等常用...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:如何提取网页中所有链接
举报原因:
原因补充:

(最多只允许输入30个字)