提取网页所有链接

原创 2003年09月23日 23:40:00

正文
见过“网际快车”的“使用网际快车下载全部链接”这个功能吗?想实现他,我们可以这样做:
     IE有几个有用的接口,我们可以用他来提取网页所有链接
     首先是用IHTMLDocument2的get_links,来获取IHTMLElementCollection接口,再通过IHTMLElementCollection来获取IHTMLAnchorElement,而IHTMLAnchorElement接口的get_href就是我们想要的,通过循环获取,我们就可以得到网页的所有链接了!
{
    TCHAR HostName[2*MAX_PATH];
    CComPtr<IDispatch> spDispatch;
    CComQIPtr<IHTMLDocument2, &IID_IHTMLDocument2> pDoc2;
    CComPtr<IHTMLElementCollection> pElementCol;
    CComPtr<IHTMLAnchorElement> pLoct;
    // TODO: Add your control notification handler code here
    int n = m_LinksList.GetItemCount();//GetCount();

    for (int i = 0; i < n; i ++){
        IWebBrowser2 *pBrowser = (IWebBrowser2 *)m_LinksList.GetItemData(i);
        if (pBrowser){
            pBrowser->Release();
        }
    }

    m_LinksList.DeleteAllItems();
    m_LinksNum = 0;
    Log("**************************************************************");
    Log("/r/n");

    if (m_spSHWinds){
        int n = m_spSHWinds->GetCount();
        for (int i = 0; i < n; i++){
            _variant_t v = (long)i;
            IDispatchPtr spDisp = m_spSHWinds->Item(v);


            SHDocVw::IWebBrowser2Ptr spBrowser(spDisp);   //生成一个IE窗口的智能指针
            if (spBrowser){
               //获取IHTMLDocument2接口
                if (SUCCEEDED(spBrowser->get_Document( &spDispatch)))
                    pDoc2 = spDispatch;
                if(pDoc2!=NULL)
                {

                    //获取IHTMLElementCollection接口
                    if (SUCCEEDED(pDoc2->get_links(&pElementCol)))
                    {
                        //    AfxMessageBox("IHTMLElementCollection");
                        long p=0;
                        if(SUCCEEDED(pElementCol->get_length(&p)))
                            if(p!=0)
                            {  
                                m_LinksNum = m_LinksNum+p;
                                UpdateData(FALSE);
                                for(long i=0;i<=(p-1);i++)
                                {
                                    BSTR String;
                                    _variant_t index = i;
                                    if(SUCCEEDED(pElementCol->item( index, index, &spDispatch)))             

                                   //查找IHTMLAnchorElement接口
                                    if(SUCCEEDED(spDispatch->QueryInterface( IID_IHTMLAnchorElement,(void **) &pLoct)))
                                    //取得链接
                                    pLoct->get_href(&String);
                                    ZeroMemory(HostName,2*MAX_PATH);
                                    lstrcpy(HostName,_bstr_t(String));

                                   //插入链接到list中
                                    m_LinksList.InsertItem(i,HostName);
                                    m_LinksList.SetCheck(i,TRUE);
                                  
                                    pLoct->get_hostname(&String);
                                    ZeroMemory(HostName,2*MAX_PATH);
                                    lstrcpy(HostName,_bstr_t(String));
                                    if(lstrlen(HostName))
                                    {
                                        m_LinksList.SetItemText(i,1,HostName);
                                        Log(HostName );
                                        Log("/r/n");
                                    }
                                    
                                }
                            }
                    }

                }

            }
        }
    }
}

    本程序在VC7+WINXP下编译通过,详细请看源代码!
  TanXin79@163.net,谢谢阅读,文章源代码如下:

http://www.vchelp.net/ASP/ibr_upload/543.rar

提取网页中的超链接

using System; using System.Xml; using System.Text; using System.Net; using System.IO; using System.C...
  • 21aspnet
  • 21aspnet
  • 2007年03月24日 17:04
  • 4052

一行JavaScript代码获取页面中的所有超链接地址

分析网页内容,然后提取自己需要的信息,这些难道都非得使用服务器端语言来编程实现吗? 不一定吧,对于不是很复杂的需求,其实,使用前端编程就能实现,今天我就使用JavaScript实现 了我提取某个网页中...
  • kingwolf_JavaScript
  • kingwolf_JavaScript
  • 2013年09月12日 23:51
  • 2641

获取指定URl页面中所有链接

获取指定URl页面中所有链接
  • zhaozonglu
  • zhaozonglu
  • 2015年08月28日 22:05
  • 993

正则表达式入门知识+用它实现在一个网页中获取所有的链接地址

概念:正则表达式是一种计算机科学的概念、它通常用来检索和替换那些符合规则的文本或者字符串。现在很多的程序设计语言计都支持利用正则表达式来进行字符串的操作,有java、c++、python、javasc...
  • lu93it
  • lu93it
  • 2016年09月14日 08:55
  • 2379

用正则表达式提取网页中的链接

代码如下:  1    /** *//** The regex for search link with the tag "a" */  2    private final String A...
  • liang0000zai
  • liang0000zai
  • 2014年11月30日 20:32
  • 1091

提取网页中所有链接

提取连接地址:var doc:IHTMLDocument2; all:IHTMLElementCollection; len,i:integer; item:OleVariant; begin doc...
  • PuCooV
  • PuCooV
  • 2005年08月13日 10:59
  • 1320

使用Java抓取网页中所有的链接

import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import ...
  • u013510614
  • u013510614
  • 2016年01月08日 10:17
  • 1899

[python] 爬取网站所有的URL

运行python脚本,最终程序目录下会是这样: result.txt中保存所有的URL 文件夹sh.neusoft.com中保存爬虫得到的所有网页 main.py的源代码如下 # -*- ...
  • hitwangpeng
  • hitwangpeng
  • 2015年08月24日 16:02
  • 12908

从HTML文档中提取链接

应用Python中的HTMLParser、cookielib抓取和解析网页、从HTML文档中提取链接、图像、文本、... Admin 2011年8月31日 名人名言:开放、搞活政策延续多久,端...
  • wangzhaopeng0316
  • wangzhaopeng0316
  • 2012年11月21日 07:44
  • 1361

网页中整个链接地址的正则表达式

来源:http://community.csdn.net/Expert/topic/3873/3873123.xml?temp=.402569Dim ExpsStr="abcwww.abc.com""...
  • stormhu
  • stormhu
  • 2005年03月26日 11:21
  • 551
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:提取网页所有链接
举报原因:
原因补充:

(最多只允许输入30个字)