搜索引擎

    定义:搜索引擎提供一个包含搜索框的页面,在搜索框输入词语,通过浏览器提交给搜索引擎后,搜索引擎就会返回跟用户输入的内容相关的信息列表。

搜索引擎的基本步骤分为4部分:

1.爬行和抓取

爬行就是搜索引擎访问很多页面,这个过程就是爬行。

抓取就是存入数据库。

2.索引

蜘蛛抓取的页面分解、分析、并以巨大的表格存入数据库,这个过程就是索引。

3.搜索词处理

用户在搜索引擎界面输入关键词,单击“搜索”按钮后,搜索引擎程序即对搜索词进行处理,如中文特有的分词处理,去除停止词,判断是否需要重新整体搜索,判断是否有拼写错误或错别字等情况。

     4、根据算法判断,根据用户需求,关键字排序。

   搜索引擎的分类。

1、全文索引是名副其实的搜索引擎,国外代表有Google,国内有著名的百度搜索。

2、目录索引按照目录分类的网站链接列表而已。

3、元搜索引擎接受用户请求后,同时在多个搜索引起上搜索,并将结构返回给用户。

     5、提取网页上的内容

目前按键支持的元素特征值有这些:框架、唯一标识、标识、类型、文本、特征、索引、名字。

评论 37
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值