北大天网搜索

简要介绍 


       天网资源检索系统是中国教育和科研计算机网示范工程应用系统课题之一,是国家“九五”重点科技攻关项目“中文编码和分布式中英文信息发现”的研究成果,并于1997年10月29日正式在CERNET上向广大Internet用户提供Web信息导航服务。天网系统由北京大学计算机系网络研究室设计开发。目前已收录了1.05亿网页和大量的新闻组文章,更新较快,功能规范;反馈内容完整,包括网页标题、日期、长度和代码;可在反馈结果中进一步检索;支持电子邮件查询。它的一个显著特点是,在语种上支持中英文搜索,而国内大部分搜索引擎都只收录中文网站,无法用来查找英文网站。


    除了WWW主页检索外,天网还提供FTP站点搜索(“天网文件”),为高级用户查找特定文件提供方便。同时,天网将FTP文件分为电影和动画片、MP3音乐、程序下载、文档资源共四大类,用户可以像目录导航式搜索引擎那样层层点击、查找自己需要的FTP文件。


    天网提供的服务还包括“天网目录”和“天网主题”。前者利用天网课题组自行开发的中文网页的自动分类技术,将网页分类组织成层次结构;后者则包括了几个极具特色的栏目,如“北京大学校内搜索”、“北京化工大学校内搜索”、“新闻搜索”、“美国1000所大学搜索”、“Unix相关搜索”。


    与Google类似,天网也提供了可以集成在Internet Explorer中的工具栏“天网搜霸”,它可放置于Windows的任务栏里,用户甚至不用打开IE就可以进行搜索。


网易搜索引擎的特点


    1、在语种上支持中英文搜索。国内大部分的搜索引擎都只收录中文网站,用来查找国内的英文网站
    2、在文件格式上即支持www文件传输格式,也支持FTP文件传输格式。天网将FTP文件分成电影、动画片,mp3音乐,程序下载,开发资源共四大类,用户可以象目录导航式搜索引擎那样层层点击下去查找自己需要的FTP文件。



搜索引擎使用说明


一、从首页访问天网 FTP 搜索引擎:在天网首页输入框输入你要查询的文件名, 可以包含“*”号(通配所有字符)、“?”号(通配一个字符)、空格(表示几个查询的并)。用鼠标点击“搜索FTP文件”,即得到查询结果。
二、在“FTP检索”页面进行常用功能的FTP搜索:
1.简单搜索:使用方法与上相同。


2.按类别搜索文件
          在输入框里输入如上说明的匹配串,点击“分类搜索”下的各种类型,如“图像”、“声音”、“视频”、“压缩”、“文档”、“程序”、“目录”、“源代码”,则搜索引擎在指定的类型里搜索文件。比如点击“图象”,则在所有的图象文件里查找与匹配串相符的文件。


3、使用快捷方式。 天网搜索引擎为用户常用的搜索提供了快捷方式,使用起来极为简单,直接点击快捷方式下你要的内容即可。目前有快捷方式:“电影”、“MTV&动画片”、“MP3音乐”、“gif动画”、“flash电影”。


三、FTP复杂搜索:  从FTP检索页面里点击“FTP复杂选项”进入“FTP复杂搜索”页面。在复杂搜索页面里,如果没有填写或者没有选择,表示使用缺省值。


1.文件大小过滤:在“文件大小”的两个下拉列表里选择文件大小的范围。


2.文件日期过滤:在“文件日期”的填入日期的起始时间“****年**月**日 之后”和日期的终止时间“****年**月**日 之前”。


3.页面显示个数:在“最大显示数”里选择结果页面每页显示的个数。


4.文件类型:在“文件类型”的下拉列表里选择限制的文件类型,比如:“图像”、“声音”、“视频”、“压缩”、“文档”、“程序”、“目录”、“源代码”。


5.限定搜索的站点范围:FTP搜索引擎在系统指定的FTP站点范围内建立搜索索引,您可以在“请您选择要限定的站点(不选则为全部站点): ”下方选择一个或者几个您喜欢或者对你而言速度比较快的FTP站点,如果不选择则表示在所有站点里搜索。



    当您在输入框输入如“一、”所示匹配串,并完成上述您需要的过滤条件设定后,点击“开始搜索”即在指定的条件下进行搜索。


四、FTP搜索结果页面的使用
1、结果页左上角的“天网搜索”图片有链接到“天网主页”的链接,点击即可回到主页。


2、页面右上方的是“在结果中查询”或者“新搜索”的表单。如果想在结果中继续深入查询,请在输入框内输入新的字串,点击“在结果中查找”即可;如果想进行附加条件与当前相同而查询串不同的搜索,请在输入框内输入新的字串,点击“新的搜索”。


3、换页链接:当结果数很多在一个页面无法显示完的时候,系统自动生成换页链接,请在“选择页面”右方点击你要切换的页面的结果起始号,或者“上一页”、“下一页”链接。


4、结果显示:每个结果前的图标是该文件的文件类型图片, 表示“图像”、“声音”、“视频”、“压缩”、“文档”、“程序”、“目录”、“源代码”或者 表示搜索引擎系统未定义的文件类型;图标后是文件名,点击可以打开文件;文件名后是文件的创建时间和文件的大小;文件名下方是该文件所在的目录,点击可以在新的窗口里打开该目录。

  --END--

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
TSE(Tiny Search Engine) ======================= (Temporary) Web home: http://162.105.80.44/~yhf/Realcourse/ TSE is free utility for non-interactive download of files from the Web. It supports HTTP. According to query word or url, it retrieve results from crawled pages. It can follow links in HTML pages and create output files in Tianwang (http://e.pku.edu.cn/) format or ISAM format files. Additionally, it provies link structures which can be used to rebuild the web frame. --------------------------- Main functions in the TSE: 1) normal crawling, named SE, e.g: crawling all pages in PKU scope. and retrieve results from crawled pages according to query word or url, 2) crawling images and corresponding pages, named ImgSE. --------------------------- INSTALL: 1) execute "tar xvfz tse.XXX.gz" --------------------------- Before running the program, note Note: The program is default for normal crawling (SE). For ImgSE, you should: 1. change codes with the following requirements, 1) In "Page.cpp" file, find two same functions "CPage::IsFilterLink(string plink)" One is for ImgSE whose urls must include "tupian", "photo", "ttjstk", etc. the other is for normal crawling. For ImgSE, remember to comment the paragraph and choose right "CPage::IsFilterLink(string plink)". For SE, remember to open the paragraph and choose righ "CPage::IsFilterLink(string plink)". 2) In Http.cpp file i. find "if( iPage.m_sContentType.find("image") != string::npos )" Comment the right paragraph. 3) In Crawl.cpp file, i. "if( iPage.m_sContentType != "text/html" Comment the right paragraph. ii. find "if(file_length < 40)" Choose right one line. iii. find "iMD5.GenerateMD5( (unsigned char*)iPage.m_sContent.c_str(), iPage.m_sContent.length() )" Comment the right paragraph. iv. find "if (iUrl.IsImageUrl(strUrl))" Comment the right paragraph. 2.sh Clean; (Note not remove link4History.url, you should commnet "rm -f link4History.url" line first) secondly use "link4History.url" as a seed file. "link4History" is produced while normal crawling (SE). --------------------------- EXECUTION: execute "make clean; sh Clean;make". 1) for normal crawling and retrieving ./Tse -c tse_seed.img According to query word or url, retrieve results from crawled pages ./Tse -s 2) for ImgSE ./Tse -c tse_seed.img After moving Tianwang.raw.* data to secure place, execute ./Tse -c link4History.url --------------------------- Detail functions: 1) suporting multithreads crawling pages 2) persistent HTTP connection 3) DNS cache 4) IP block 5) filter unreachable hosts 6) parsing hyperlinks from crawled pages 7) recursively crawling pages h) Outputing Tianwang format or ISAM format files --------------------------- Files in the package Tse --- Tse execute file tse_unreachHost.list --- unreachable hosts according to PKU IP block tse_seed.pku --- PKU seeds tse_ipblock --- PKU IP block ... Directories in the package hlink,include,lib,stack,uri directories --- Parse links from a page --------------------------- Please report bugs in TSE to MAINTAINERS: YAN Hongfei * Created: YAN Hongfei, Network lab of Peking University. * Created: July 15 2003. version 0.1.1 * # Can crawl web pages with a process * Updated: Aug 20 2003. version 1.0.0 !!!! * # Can crawl web pages with multithreads * Updated: Nov 08 2003. version 1.0.1 * # more classes in the codes * Updated: Nov 16 2003. version 1.1.0 * # integrate a new version linkparser provided by XIE Han * # according to all MD5 values of pages content, * for all the pages not seen before, store a new page * Updated: Nov 21 2003. version 1.1.1 * # record all duplicate urls in terms of content MD5

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值