IE网页文本采集的实现

原创 2008年09月28日 10:15:00
 
  IE网页文本采集的实现     选择自 dansin 的 Blog
关键字   IE网页文本采集的实现
出处  
前不久,有人在论坛上求一个能够自动完成网页文本采集的软件。具体功能是,当用户选择网页中的一段文本时,单击鼠标右键,则会在右键菜单中看到“保存为文本文件”的选项,这篇文章讲一讲我实现的这个小软件的技术及思想。

该软件涉及到的技术有:

1、IE编程,主要是如何将右键菜单嵌入到IE右键菜单里去。
2、COM(组件对象模型)编程。
3、VB脚本编程。

实现该软件的基本思想及流程:

1、向系统注册一个COM组件,该组件提供接口SaveText(BSTR str),SaveText接口能将str保存为指定路径下的文本文件。
2、修改注册表,将“保存为文本文件”选项添加到IE右键菜单中。
3、建立VB脚本,关联菜单选项与COM组件调用。

这样,用户在选择文本后能选择“保存为文本文件”,程序就能将选择的文本传入COM组件。

下面是实现上述三个步骤的细节:(开发环境:Visual C++ 6.0)

1、在VC里建立ATL工程,并为COM组件添加接口SaveText(BSTR str),该接口调用SaveText.dll里的SaveText函数(该函数弹出对话框,并将对话框中文本框里的内容保存为用户指定路径的文本文件),完成保存文本功能。
2、修改注册表,在HKEY_CURRENT_USER/Software/Microsoft/Internet Explorer/MenuExt/子键下添加“保存为文本文件”子键,其下设立两个值,其中默认值为执行脚本的所在路径,Contexts值表示在IE 中单击鼠标右键里何时显示该菜单选项(说细说明见http://support.microsoft.com/kb/q177241/)。
3、建立VB脚本的目的是为了让用户单击“保存为文本文件”选项时执行该脚本,然后脚本创建COM对象,完成保存文本文件功能,在网页中选择用户选中文本的脚本程序可以如下书定:
       On Error Resume Next
       set nc=CreateObject("SeizeText.Seize")
       if err<>0 then
           MsgBox("error..")
       else
           nc.CatchHtmlText(external.menuArguments.document.selection.createRange().text)
       end if

在完成上述步骤后,网页文本采集功能就实现了。
                  

相关文章

利用PHP制作简单的内容采集器的原理分析

利用PHP制作简单的内容采集器的原理分析 2008-12-12 11:24 前几天做了个小说连载的程序,因为怕更新麻烦,顺带就写了个采集器,采集八路中文网的,功能比较简单,不能...
  • hawk140
  • hawk140
  • 2016年08月28日 11:43
  • 1405

ASP采集-ASP采集程序原理

采集程序的主要步骤如下: 一、获取被采集的页面的内容 二、从获取代码中提取所有用的数据 一、获取被采集的页面的内容 我目前所掌握的ASP常用获取被采集的页面的内容方法: ...
  • lishimin1012
  • lishimin1012
  • 2015年12月15日 18:08
  • 939

PHP采集程序原理分析篇

由于需要,要写一个简单的PHP采集程序,照例是到网上找了一堆教程,然后照猫画虎,可是发现网上的教程全是似是而非,没有一个真正能用的。苦想了几天,终于弄明白了里面的道理。在这里写出来,请高手指正。 采...
  • jinxingfeng_cn
  • jinxingfeng_cn
  • 2014年01月09日 18:37
  • 1030

记一个IE浏览器兼容模式与IE文档模式不一致的问题

今天遇到一个IE兼容的奇葩问题,浏览器兼容模式
  • kewen303
  • kewen303
  • 2014年09月17日 12:31
  • 1428

asp.net(c#)做一个网页数据采集工具

最近做一个网站,该网站需要添加4000多 产品信息,如果用人工方法去别的网站copy那至少要花费半月时间才能完成,所以我个办法使用c#作出来了一个网页数据采集软件详细出处参考:http://www.j...
  • zky0901
  • zky0901
  • 2010年02月05日 23:50
  • 632

搜索引擎蜘蛛的基本原理及工作流程

搜索引擎用来爬行和访问页面的程序被称为蜘蛛(spider),也叫机器人(bot)。搜索引擎蜘蛛访问网站页面时类似于普通用户使用浏览器,蜘蛛程序发出页面访问请求后,服务器返回HTML代码,蜘蛛程序把收到...
  • JackLiu16
  • JackLiu16
  • 2018年02月08日 00:00
  • 35

网络爬虫介绍及数据采集

收索系统包括三大模块:数据采集模块、页面清洗模块、数据库模块 Heritrix和Nutch,二者均为开源框架(网络爬虫技术框架),,Heritrix是SourceForge的开源产品,Nutch...
  • wszsj
  • wszsj
  • 2015年11月10日 19:27
  • 981

autoit3 ie.au3 函数之——_IEBodyReadText

_IEBodyReadText : Returns the Text inside the tag of the document. 读取文档内 标签内的文字. #include ...
  • shandong_chu
  • shandong_chu
  • 2011年11月04日 13:58
  • 856

text-align:justify实现文本两端对齐且兼容IE

对于text-align 我们再熟悉不过了,可是它有个justify属性,平时很少用到,就鲜为人知了。justify是一种文本靠两边布局方式,一般应用于书刊杂志排版;合理运用text-align:ju...
  • u011718042
  • u011718042
  • 2013年08月19日 14:13
  • 2921

php爬虫批量采集网页内容,批量采集网站内容-php爬虫采集教程6

直到现在才真正进入我们要采集的网页内容, 前面都是为了这个目标做的准备, 跟着子恒老师来看看怎么使用php采集到你想要的网页数据吧… 猛击这里, 观看《php爬虫批量采集网页内容》视频...
  • towtotow
  • towtotow
  • 2018年02月11日 10:24
  • 40
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章: IE网页文本采集的实现
举报原因:
原因补充:

(最多只允许输入30个字)