网络搜索与信息收集路路通

转载 2005年04月25日 22:51:00
现代人的生活已经越来越离不开互联网络了。上网从聊天室里的胡侃乱吹、大小论坛里的灌水拍砖到垃圾伊妹儿的满天飞舞、即时通讯工具软件的红红火火再到各种电子媒体的相继问世、网络学校的日新月异,网络正在对我们的生活产生不可小视的影响。各种网络泡沫消失殆尽之后,带给人们更多理性的思考,带来了网络上的一片欣欣向荣的新景观。我们正在迎接一个全新的网络新世界。

  感觉到了吗?我们的语言中已经由于网络而增加了许多新鲜的血液,我们的通讯交流由于网络而变得更加方便快捷,我们的知识的更新速度也由于网络而加快了不知有几十倍……可以豪不夸张的说,已经有越来越多的人对网络有着很强的依赖性,如果没有网络,他们将不知道该怎样去生活!

  网络是一个工具。也可以说网络像“海洋”,它是“知识的海洋”,是现代人获取知识的另一个重要而便捷的途径。但这些知识固然是客观存在的,只有正确的掌握了打开这座知识宝藏的金钥匙的人才能充分的享受宝藏带给我们的快乐。换句话说,如果去主动地用有效的方法获取这些知识,对中学生来说,应该比网络本身的内容更加重要。本专题将结合作者本人多年的网络生活经历,与同学们一起探讨一下这方面的技巧和方法。

  一、掌握必要的“搜索”技巧是获取信息的重要手段

  初入网络的朋友,大多像一只无头的苍蝇,在网络这个无边无际的虚拟空间中乱撞。这种漫无目的的“看网”,可能会因为遇到某个心动的网站而兴奋不已,也可能会为紧紧张张地忙活了半天而一无所获感到沮丧万分。不过,这却是初学者必须经过的一道坎。如果你能掌握正确的搜索技巧,带着一定的问题和疑问去上网,访问网络后的结果肯定会与众不同。

  1. 认识搜索引擎

  什么是搜索引擎?它是如何工作的?还是让我们先从搜索引擎的历史说起吧。1990年以前,没有任何人能搜索互联网。所有搜索引擎的祖先,是1990年由Montreal的McGill University学生Alan Emtage、Peter Deutsch、Bill Wheelan发明的Archie。后来,程序员们开发出了一个名叫“spider”(蜘蛛)的“Robot”(机器人)程序,它能自动以人类无法达到的速度不断重复地在网络上检索信息。这种行为很像一只蜘蛛在INTERNET这张巨大的信息网上爬来爬去,因此,spider程序便由此而来。世界上第一个Spider程序,是MIT Matthew Gray的World wide Web Wanderer,用于追踪互联网发展规模。刚开始它只用来统计互联网上的服务器数量,后来F和发展为也能够捕获网址(URL)。

  随着互联网的迅速发展,使得检索所有新出现的网页变得越来越困难,因此,在Wanderer基础上,一些编程者将传统的Spider程序工作原理作了些改进。其设想是,既然所有网页都可能有连向其他网站的链接,那么从一个网站开始,跟踪所有网页上的所有链接,就有可能检索整个互联网。

  概括的说:搜索引擎就是WWW网络环境中的一套信息检索系统。它通常有两种不同的工作方式:一种是分类目录型的检索,把因特网中的资源收集起来,由其提供的资源的类型不同而分成不同的目录,再一层层地进行分类,人们要找自己想要的信息可按他们的分类一层层进入,就能最后到达目的地,找到自己想要的信息;另一种是基于关键词(Keyword)的检索,这种方式用户可以用逻辑组合方式输入各种关键词,搜索引擎计算机根据这些关键词寻找用户所需资源的地址,然后根据一定的规则反馈给用户包含此关键字词信息的所有网址和指向这些网址的链接。

  搜索引擎其实也就是一个网站,只不过该网站专门为你提供信息“检索”服务,它使用特有的程序把INTERNET上的所有信息归类以帮助人们在浩如烟海的信息海洋中搜寻到自己所需要的信息。随着因特网信息按几何级数增长,这些搜索引擎利用其内部的一个spider程序,自动搜索网站每一页的开始,并把每一页上代表超级链接的所有词汇放入一个数据库,供用户来查询。

  一个搜索引擎大致由三部分组成。第一部分是搜索器,也就是上面提到的Spider程序。它定期的自动爬到各个网站上,把网页抓下来,并顺着上面的链接,象蜘蛛一样爬开去,持续不断的抓取网页。第二部分是索引器,它把蜘蛛程序抓来网页进行分析,按照关键词句进行索引,并存入服务器的数据库中。第三部分是面向用户的检索器,它接收用户提交的查询字串,在索引数据库中查询,并将结果反馈给用户。

  因此,准确的说,当我们利用搜索引擎搜索信息时,并不是真正在网上进行搜索,而是在检索那个由蜘蛛程序自动建立起来的庞大的数据库。由于各大搜索引擎的数据库的自动更新周期是不同的,从几天到几周甚至一个月都有可能,因此,选择合适的搜索引擎显得尤为重要。同时,有时也可能遇到用搜索引擎搜索到的网页无法打开的情况,了解了它的工作原理,这一点也就不会大惊小怪了。
  2. 选择合适的搜索引擎

  尽管网上有大量的搜索引擎可供选择,但时下搜索效率等各方面都比较让人满意的并不多。相比之下,源自辛弃疾的《青玉案》中的著名诗句“众里寻她千百度”的中文搜索引擎“百度”以及简体中文的google应该是大家的首选。其中百度(www.baidu.com)主要提供基于“关键词”的检索方式,而且在这方面做得非常有特色。而google则不仅可以支持基于“关键词”的搜索网页搜索方式,同时也是分类目录式的搜索的典范。

  3. 搜索引擎的使用技巧

  千万不要以为有了搜索引擎就能搜到一切,如何正确的运用搜索引擎也是一门学问。目前,著名的搜索引擎百度正在网上进行“百度搜索大富翁”的游戏(http://game.baidu.com/index.php),你只要每天花上几分钟时间,利用搜索引擎回答5道题目,既可以学习到许多有用的搜索技巧,还有机会赢取掌上电脑、数码相机、手机等巨额奖品,何乐而不为?下面谈谈本人在使用百度搜索引擎方面的一些方法和技巧。

  我们使用搜索引擎,大多数情况下都是使用一些关键词去搜索引擎中进行搜索的。因此,搜索的技巧之一就是关键词的合理选取。什么叫“关键词”?其实就是你输入在搜索引擎的搜索框中的文字,也就是你命令搜索引擎要寻找的东西。千万不要以为关键词就是三两个字才叫“词”,有时用一句话或一个短语作为关键词往往可以收到奇效。因为相同的词汇可以用在许多不同的场合,仅仅使用一个或几个单词搜索到的结果肯定会是一片汪洋,这样的搜索结果没有任何作用。除了关键词的长度,合理的选择关键词也是非常重要的。对于同样的搜索需求,两种不同的关键词搜索策略可能得到相差悬殊的结果。比如:有这样的一个问题:内蒙古锡林郭勒盟苏尼特右旗,1985年出土的距今1.2亿年的“_________恐龙”是目前中国发现的最大的恐龙化石骨架。装架后体长22.4米,背高7米,抬头高12米。如果要求通过网上搜索后找到答案,你准备用什么样的关键词呢?是“内蒙古”,还是“恐龙化石”,抑或是将这两个关键词同时使用?无论你采用以上哪种方案去搜索,得到的结果都会有成千上万!但如果能够紧紧抓住“中国发现的最大的恐龙化石骨架”这句短语,以它为关键词来进行搜索的话,在百度和雅虎的搜索引擎上都只得到9个结果!找到这个问题的答案当然易如反掌了。
  其次,对于已经搜索到的网页,如果无法打开,八成是该网页已经被站长从网上删除了。而更让人难以接受的是,通过搜索引擎的对该页简要介绍,发现该页上正是自己苦苦找寻的结果,是不是就真的没有办法了呢?当然不是。如果你选择百度搜索引擎进行搜索,可以看出,在每个搜索结果后,都有“网页快照”和“网页预览”两个超级连接。在这种情况下,直接打开该网页可能打不开,但点击“网页快照”却可以看到该网页的快照内容。因为网页快照保存了该网站以前的信息,网页快照不仅下载速度极快,而且搜索项均用不同颜色标明,另外还有标题信息说明其存档时间日期,并提醒用户这只是存档资料。 网页快照不仅可以让你看到一些根本就不存在了的网页上的内容,对仍然可以打开的网页,使用网页快照也有许多好处。因为,快照页面的首部都有一个与关键词相关的页内链接,直接指向该页中你所关心的重要内容。同时,网页内的所有关键词都被用不同的颜色进行了区分,是不是比直接打开网页后自己用眼睛在该页上查找要方便得多,尤其是内容多的网页,有时你会感觉这些关键词是在与你玩“捉迷藏”的游戏。

  另外,使用多关键词、使用减法搜索——包含A但不包含B关键字、并行搜索——包含A或者包含B,和在结果中查询等高级搜索技巧,也是提高搜索水平的有效途径。具体用法大家可以到http://www.baidu.com/search/jiqiao.html去查阅“百度搜索帮助”。这里要特别指出的是:百度的确是一个非常优秀的搜索引擎。当你选取的关键字找不到你所要的结果时,很可能是关键字选取不当。怎么办?需要重新选取关键字,大多数情况下,百度都已经明白了你的意思,看!在该页的下方,百度已经为你另外选取了几组关键词,用它们来作关键词搜索试试?这就是相关搜索。

  大多数情况下,使用以上技巧就可以完成日常获取知识的需要,但在某些特殊的场合,比如:想知道我们的“阿紫”编辑在“中学生电脑”的网站内的知名度,这时,就只需要在一个网站(www.yesnew.com)内进行搜索。部分网站提供了这种功能,但绝大多数网站都没有这种站内搜索的功能。怎么办?还是用“百度”就可以搞定。百度支持在网站内进行搜索,这时,只需要在它的搜索输入框内按“关键词 site:网址或域名”的格式输入关键字,再点击“开始搜索”按钮即可。例如:用“阿紫 site:www.yesnew.com”为关键字可以获得“阿紫”这个名字在该网站出现的频率;用“intel site:com.cn”可以在所有域名以“com.cn”结尾的网站内搜索和“intel”相关的资料。需要注意的是:“site:”后不能有“http://”前缀或“/”后缀,网站频道只局限于“频道名.域名”方式,不能是“域名/频道名”方式。
  4. 顺藤摸瓜式搜索方法与技巧

  前面已经讲过,由于搜索引擎的工作原理,一般都不可能利用搜索引擎搜索到最新最近的信息。而且,毕竟它是一个按一定算法编写的spider程序到网上搜索到结果,难免会遗失网上大量的信息。而各个搜索引擎所建立的数据库也是不大一样的。也就是说,用一个搜索引擎没有搜索到自己所要的信息的话,可以换一个搜索引擎再试试。除此之外,我本人在长期的搜索过程中,还总结出一套“顺藤摸瓜”式的搜索技巧。不敢独享,现介绍出来,与大家共享。


  一流的网站对于网页名称的设计也应该是一流的。虽然这些东西看似与用户无关。大家都知道,“洪恩在线”是一个以开展计算机普及教育的著名网站,它的“电脑乐园”小版块(http://www.hongen.com/pc/index.htm)是专门为各位初学电脑的同学们开办的。里面放置了专家们精心编写的各种软件的使用教程和操作技巧。如果你掌握了常见的一些英文单词或缩写(os:操作系统;oa:办公自动化;tools:工具;program:编程;newer:初学者;homepage:网页制作等),就可以根据其下某一栏目的网址(比如:办公软件的相关教程:http://www.hongen.com/pc/oa/index.htm),推断出其他各类栏目可能的网址(将该地址中的“os”更换成相应的单词即可)。再比如,有些网站中明明有某个网页,却没有在它的主页或其他页面中放置链接到该页面的超级链接,或者将该链接放在比较隐蔽的位置,想找到并打开这些网页是比较困难的。但如果我们善于分析和发现它的网页名称的命名特点和规律,就可以顺藤摸瓜,由点到面,在网上找到更多对自己有用的信息。这些规律一般也无外乎用英文单词、汉语拼音或缩写、数字结尾、网页更新当天的日期、刊物的期数加版(面)数这几种形式。比如:天极网(www.yesky.com)中每个基层网页的地址中几乎都包含一个表示日期的数字串,比如:http://www.yesky.com/SoftChannel/72357786532446208/20030430/1666528.shtml,这个地址的倒数第二个数字串是什么?呵呵,当然是表示该页是2003年04月30日上传的了。又如:http://media.ccidnet.com/media/cce/515/03301.htm是赛迪网中的一个网页,分析一下它的地址的组成也很有意思。“media.ccidnet.com/media”表示“赛迪媒体”,cce则是“中国电脑教育报”的简称,515表示这篇文章出自“中国电脑教育报”总第515期,如果你将这篇文章与报纸相对照,就会发现连最后的03301.htm也有它的具体内涵:033表示第33版,01当然表示该版上的第一篇文章了,呵呵。了解了网站中网页名称的构成特点,就可以在第一时间看到该报的电子版。不信,你在每周日的晚上(教育报每周一出刊)直接在地址内输入:http://media.ccidnet.com/media/cce/XXX/daodu.htm(其中XXX表示下周报纸总期数编号)试试?反正我是用这种方法不花钱而且比花钱订报更早地看到了“报纸”的最新的内容。呵呵。

  二、工欲善其事,必先利其器——IE的搜索插件及浏览器的选择

  1. 安装几个IE插件协助搜索

  IE虽然与著名的3721中文网址合作,在工具栏里提供了“搜索”按钮,但毕竟一个搜索引擎是难以满足大家的搜索需要的。下面介绍如何给IE安装几个其他的搜索引擎工具箱。

  ①百度搜霸

  上网到http://bar.baidu.com/baidubar/custom/IESearch_sitesowangdg.exe下载“百度搜霸”(225K)。下载完成后立即安装,当提示“百度搜霸”已经正确安装之后,重新启动IE。在工具栏的空白位置点击鼠标右键,只要勾选“BaiduBar”,就可以立即在地址栏下弹出一个百度搜霸的工具栏。以后,只要打开IE,想用百度搜索引擎进行搜索时,只要是直接将要搜索的关键字填入这个文本输入框内,再点击其后的“搜索”按钮就可以立即显示出包含有此关键字的网页来。当然,如果你想利用搜索引擎找歌听,你可以输入歌曲或者歌手的名称,甚至是一句歌词,再点击“MP3”或“歌词”即可完成歌曲或歌词的查找过程。同样的关键字,如果你点击的是“flash”的话,将会弹出与这首歌有关的flash MTV或者flash动画作品来供你下载。是不是很方便?另外,“站内”当然是“站内搜索”的意思了。同时,还就注意到,我们所输入的关键词同时还会出现在该工具条的最右边,它有什么作用呢?原来,当屏幕上显示出搜索结果页面之后,单击这里可以在本页内的所有关键字上进行顺序移动,便于我们快速的从网页中找到所需的内容。“高亮度显示”的按钮如果被按下,则当前页面上的所有关键字都被高亮度显示出来,使人一目了然。

  ②IE Plus Pro

  这是一个IE的插件,可以到http://bar.baidu.com/ad/download.php?clientName=sitesowang下载IEPlus Pro的最新版本。安装完成后,启动IE。如果没有发现IEPlus Pro的工具条,可以在IE的工具栏的空白处点击鼠标右键,给“IEPlus Pro”打上勾即可。图05就是它的工具条。注意,点击IEPlus Pro的图标,才会出现这个下拉菜单。从这个下拉菜单中可以看出,它内置了近十种不同作用的搜索引擎。可以方便地搜索网页、新闻、驱动程序、歌曲等。



  2. 浏览器的选择

  尽管IE有许许多多的用户,但我个人认为,IE在许多方便做得并不好。像上面谈到的搜索方面,它需要我们再安装第三方的工具来增强。其次,一个网页需要打开一个IE新的窗口也让人非常恼火,占用了我的机器在许多宝贵的资源。其实,浏览器市场可以选择的有很多,我这里推荐使用“我要上网去”这个浏览器。它的最新版本是1.2版,无需安装,直接将它解压到某一文件夹即可。即使重新安装了系统,也无需重新安装它。它有以下几大优秀的地方:

  ①同一窗口内采用标签的形式打开多个网页,大大节约了系统资源的占用率。

  ②内置了国内、国际、软件、新闻、歌曲、驱动等10个分类近50个搜索引擎,功能可以和其他专门的搜索软件媲美。只要输入你要搜索的关键词,单击相应的分类,再单击多个搜索引擎,可以轻松用同一关键字在多个搜索引擎中进行搜索而无需重新输入这些关键字,直到找到你的信息为止。对于系统没有添加进来的搜索引擎,还允许用户自己添加“个人”的搜索引擎。下面以添加“百度搜索引擎”为例进行一下说明。

  按下工具栏上的“搜索”按钮在窗口的左边显示“搜索”面板,点击“添加”,弹出“添加搜索”对话框。在“地址”栏内输入百度地址www.baidu.com并按回车键,然后在网页中输入单词“KEY”,单击“百度搜索”按钮,对话框自动进入“下一步”。更改“网站标题”为“百度网页搜索”,可以看出,中部与搜索有直接关系的几个选项已经由程序自动填写,单击“完成”即可在“搜索”面板下多出一个名叫“百度网页搜索”的搜索引擎链接。同样,还可以建立一个“百度MP3歌曲搜索引擎”链接,一个“百度歌词搜索引擎”,一个“百度flash文件搜索引擎”。只是在重复上面的步骤时,在对话框中,单击相应的搜索选项后再点击“百度搜索”即可。

  ③可对搜索到的信息进行简单的采集

  51357自带一个小巧的网页下载器HTML Downloader,在浏览网页时,遇到精彩的网页链接,可以直接用鼠标将这个链接拖动到窗口右下角的“网页下载器”里,随即会弹出一个HTML Downloader的窗口,同时快速进行网页的下载。以后需要查看该网页时,可再次打开这个窗口,既可直接在此打开察看,也可选中部分或全部网页,点击“输出”,可以自己选中的形式保存在指定的位置。另外,51357还有一个微型的“填表收集面板”。将这个浮动的窗口放在屏幕的一个合适的位置,浏览网页的时候,可能经常会需要“摘录”部分段落或精彩内容,没关系,想“摘”就“摘”吧。只要用鼠标选中这些目标,同样用鼠标拖动这些段落至“收集面板”中即可。等有时间再慢慢输入整理吧。另存输出的方法是:单击图09中鼠标所指的“Export”按钮,选择一个保存的位置和文件名即可。


  ④过滤不良信息,屏蔽弹出式网页

  在“工具”菜单下,勾选“禁止弹出式广告”和“启用黑名单”,当你在浏览某些具有弹出式广告的网站时,这些网页自动被过滤。同时,某些恶意网页入侵一次之后,我们可以将它添加到“黑名单”中,这样,下次它就不会再来侵扰我们了。

(出处:http://study.vipcn.com

一年管理成富翁,三年市场路路通,十年技术一场空

我99年毕业,到如今早已是16年的技术了,我能力一般,但是我也不是最差的,我的经验告诉你们一个确切的事实,在中国,做技术的出路是非常有限。 首先做技术需要跟对老板,其次做技术的要和老板有共同的价值观...
  • jcxch
  • jcxch
  • 2016年04月05日 11:41
  • 927

路路通 GPS软件 脱壳+破解 纪要 (RtNavi.exe)

用PEID查壳为未知壳,如图。 用ESP定律尝试,可直接到OEP,用loadpe先完整转存,再用ImportREC修复IAT,在修复过程中发现最后一行invalid,直接先删除掉。 打开修复后...
  • zhw309
  • zhw309
  • 2011年11月20日 01:06
  • 5695

路路通JAVA版手机时刻表

  • 2010年02月26日 16:25
  • 448KB
  • 下载

网络搜索歌词

package smit.com.NetMusicInfo;import java.io.BufferedReader;import java.io.BufferedReader;   import ...

路路通输入法小学演示版程序

  • 2011年10月18日 13:34
  • 8.59MB
  • 下载

【google论文一】面向星球的网络搜索:google集群架构

转载:http://duanple.blog.163.com/blog/static/70971767201091102339246/ 作者 phylips@bmy 为了能够支持可扩展的并行化,g...

路路通最新抢用版

  • 2013年01月11日 09:17
  • 771KB
  • 下载

最新版路路通

  • 2013年03月19日 20:55
  • 1.1MB
  • 下载
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:网络搜索与信息收集路路通
举报原因:
原因补充:

(最多只允许输入30个字)