具有自动查找Web页面上所有链接的网络浏览器

原创 2002年11月21日 09:50:00

具有自动查找Web页面上所有链接的网络浏览器

1. 概述
WEB的应用已经深入到现在社会的方方面面,作为一个软件开发人员或其他技术人员,都有可能遇见在Internet上查询大量的资料和信息的情况,一般来说用的最多的就是WEB的搜索Engine。当我们使用它查出大量的资料链接后,还有可能遇到更多的链接,但要自己去看他们是否是链接,那确实是一件很麻烦的事情。这篇文章就是来讲,如何用Delphi的MSHTML_TLB.pas来开发一个具有自动查找Web页面上所有链接的简单网络浏览器。我是在IE5的环境下写的这个程序,当然它可以向下兼容,如IE4。
2.关于MSHTML_TLB.pas
MSHTML_TLB.pas是Deliphi里面自带的一个类。它的含义是Microsoft HTML对象库。它不能够包含在所有的工程或程序中,原因是它实在是太大了,整个文件的代码共有241,899l行,那么长。大小约有12M。下面我们来看看它是如何加入到程序中的。
1. 首先,我们打开Delphi,建立一个新的application。我把form1保存为MainFrm.pas,把application保存为FindLinks.dpr.
2. 要想实现IE 的功能我们就必须要使用Microsoft HTML对象库(MSHTML type library.)如何实现呢?如图1, Project->Import Type Library:

然后你会看到关于"Microsoft HTML Object Library (Version 4.0)"的列表,如图2。
接下来可能会遇到一些问题。比如,在列表里面没有出现"Microsoft HTML Object Library (Version 4.0)"。这是为什么呢?那是IE的问题,由于IE版本的不同(我用的是IE5)。我建议最好是先查询你的计算机里面有没有mshtml.tlb这个文件。
在9x里面它是存在与C:/WINDOWS/SYSTEM目录里面,在2000里面它在/WINNT/system32目录里面。如果找到了这个文件,就可以用图2的click on the "Add..." button,然后选择mshtml.tlb,就可以了,如果没有找到它,那说明你没有安装IE或你的IE版本太低,请升级IE。
最后,当我们选择了倒入的库后,会等待一段时间,因为它实在是太长了,不过请千万不要因为是死机了。它会给自动查找提供很多帮助。
3. 工程实现。
界面设计如下图:

 
使用以下组件:
控件 命名 TEXT
TLabel lblURL 资料网址
TEdit edtURL http://www.huihu.com
TButton btnFindLinks 查询连接
TListBox lstbxLinks null

4. 程序设计
1. 在Form1的interface部分,在uses后面加入,OleCtrls, SHDocVw, and OleServer.这些所应用的类,都是基于我们所要创建的TinternetExplorer的,它是IE的ActiveX的对象。但是这里还有其它的方式(TinternetExplorer)进行,我们采用TwebBrowser 控制在我们的form1。
2. 我们在private里面加入如下代码:
FInternetExplorer: TInternetExplorer;
procedure WebBrowserDocumentComplete(Sender: TObject; var pDisp: OleVariant;
var URL: OleVariant);     
最后用Ctrl-Shift-C完成类的声明。
3. 在impelmentation后面加入如下声明:
uses MSHTML_TLB, ComObj;
要使用的类。
4. 在form1的OnCreate事件中加入如下:
     FInternetExplorer := TInternetExplorer.Create(Self);
  FInternetExplorer.OnDocumentComplete := WebBrowserDocumentComplete;
5. 最后在form1的TForm1.WebBrowserDocumentComplete里面加入如下代码:
1. procedure TForm1.WebBrowserDocumentComplete(Sender: TObject;
2.     var pDisp: OleVariant; var URL: OleVariant);
3. var
4.   Doc: IHTMLDocument2;
5.   ElementCollection: IHTMLElementCollection;
6.   HtmlElement: IHTMLElement;
7.   I: Integer;
8.   AnchorString: string;
9. begin
10.   lstbxLinks.Clear;
11.   // 在处理网页的时候发现它没有完全下载,将不会进行处理连接
12.    Doc := FInternetExplorer.Document as IHTMLDocument2;
13.   if Doc = nil then
14.     raise Exception.Create('Couldn''t convert the ' +
15.       'FInternetExplorer.Document to an IHTMLDocument2');
16.   // 夺取web上的所有元素。
17.   ElementCollection := Doc.all;
18.   for I := 0 to ElementCollection.length - 1 do
19.   begin
20.     file://得到当前的元素
21.     HtmlElement := ElementCollection.item(I, '') as IHTMLElement;
22.     // 查找网页原代码中的LINK标记。
23.     // 发现其它的html标记 (例如: TABLE, FONT, etc.)
24.     if HTMLElement.tagName = 'A' then
25.     begin
26.       // 在详细的link里面抓取innerText,innertext就是标记中<href=后面的东西>例如:

27.       // 我们在web里面看见"西南民族学院"
28.       // <a href="http://www.swun.edu.cn"><b>西南民族学院</b></a>.
29.           AnchorString := HtmlElement.innerText;
30.       if AnchorString = '' then
31.         AnchorString := '(Empty Name)';
32.       AnchorString := AnchorString + ' -  ' +
33.         (HtmlElement as IHTMLAnchorElement).href;
34.       lstbxLinks.Items.Add(AnchorString);
35.     end;
36.   end;
37. end;

   最后我们在button(btnFindLinks)加入Onclick 事件:
1. // 在被浏览的web里面进行查询连接。
2.   FInternetExplorer.Navigate(edtURL.Text, EmptyParam, EmptyParam,
    EmptyParam, EmptyParam);
从以上的程序里面我们可以看出它的原理了,实际上是很简单的,看过html原代码的人都知道,使网页产生连接的代码就是:<a href="http://www.swun.edu.cn"><b>西南民族学院</b></a>.
我程序的原理就是通过截取href后面的字符串,并在"""号后面截止。
然后把它保存为另外的字符串。然后通过TwebBrowser显示出来。
最后让我们来编译这个程序,的却,编译它很费时间,因为编译多达241,899l行的MSHTML_TLB.pas,是一件很麻烦的事情。其中还包括多达20多个的warning错误,但请放心这是MSHTML_TLB.pas的问题,与其它程序无关。这样一个小型的查找Web页面上所有链接的简单网络浏览器就出现在我们面前。本程序在IE5.0和Delphi6下编译通过。

 

如何通过浏览器链接启动本地 Activity

我们都知道打开Activity的方式有2种,即显示意图和隐式意图.那么如何实现通过手机浏览器点击某个链点就能打开手机中已经安装的app呢?通过隐式意图就能实现这个功能. 先来看一段html代码: ...
  • mChenys
  • mChenys
  • 2015年11月01日 12:47
  • 956

通过浏览器链接启动本地Activity

1.在AndroidMenifest.xml文件中配置需要启动的Activity,配置方式如下:                    android:name="com.gbwd.gbcoo...
  • u010353028
  • u010353028
  • 2015年10月26日 14:48
  • 448

使用htmlparser下载网页中链接的所有文件

事件起因:叶总在安装个东西
  • coder_xia
  • coder_xia
  • 2014年06月29日 21:41
  • 2941

python3 beautifulsoup查找网页中的链接

soup=BeautifulSoup(html, "html.parser") a=soup.find_all('img',attrs={'pic_type':'0','class':'BDE...
  • sikuquanshu123
  • sikuquanshu123
  • 2016年02月17日 22:07
  • 189

没有设置链接库却自动链接到一个静态库的错误查找

工程链接设置中没有链接到xxx.lib而且代码中也没有使用#pragma comment(lib,"xxx.lib"),也没有链接使用到这个库的其他库。 找了半天发现是项目的“框架和引用”中...
  • lanzheng_1113
  • lanzheng_1113
  • 2017年04月28日 17:10
  • 123

find 命令搜索符号链接文件夹的方法

From: http://blog.csdn.net/caspiansea/article/details/7456048   find  命令默认情况下,不会到符号链接指向的文件夹下面搜...
  • JoeBlackzqq
  • JoeBlackzqq
  • 2014年09月05日 13:52
  • 1190

【原创】获取网页中所有密码和发帖标题内容

通过微软的IE接口获取到所有IE浏览器中的密码,帖子标题和内容
  • fastdebuger
  • fastdebuger
  • 2015年05月26日 15:55
  • 416

正则表达式入门知识+用它实现在一个网页中获取所有的链接地址

概念:正则表达式是一种计算机科学的概念、它通常用来检索和替换那些符合规则的文本或者字符串。现在很多的程序设计语言计都支持利用正则表达式来进行字符串的操作,有java、c++、python、javasc...
  • lu93it
  • lu93it
  • 2016年09月14日 08:55
  • 2386

使用Java抓取网页中所有的链接

import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import ...
  • u013510614
  • u013510614
  • 2016年01月08日 10:17
  • 1907

python获取网页上所有链接

import urllib2 #获取源码的函数,urllib3更换 urllib.request.urlopen(url).read() return urllib2.urlopen(...
  • u013045370
  • u013045370
  • 2016年11月10日 20:41
  • 1314
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:具有自动查找Web页面上所有链接的网络浏览器
举报原因:
原因补充:

(最多只允许输入30个字)