Python实现抓取链接/分词/索引/搜索关键词——简单搜索引擎

    实验目的是用python编写网络搜索程序,完成对一个特定网站的文本搜索。对站内网页内容进行分词并建立倒排索引结构,通过输入文本词汇,检索出站内所有网页内容中出现过此文本的网页。

    流程是:抓取网页链接,分词,建立索引,对关键词分词后进行搜索。

   

一.链接抓取

由于不是简单地就在一个网站上进行正则匹配,得出结果,要在网站得到链接后,再以新得链接为基准,继续深度抓取,所以设置了以newpages为中间值的循环。

Crawl()引入BeatifulSoup包,用包中函数soup('a'),查找可能含有链接的部分,简单方便。通过判断初始四个字母为http,则把网页链接加入newpages参与循环。

每抓取一个链接,立即建立索引,引用addtoindex()函数。

 

二.分词

每网页建立索引addtoindex()之前,会先获取文本信息和分词处理,导入jieba包,引用jieba.cut_for_search()函数。

获取文本信息

   分词处理

三.建立索引

创建3个链表类型,3个节点类型(括号中表示)

Linklist(Node):对每一个网页分词后,将词加入此链表

Weblist(Web):把网页按照所拥有的词加入词链表,接在词的后面。

Resultlist(Result):搜索结果加入此链表

以及定义停用词ignorewords=set(['','但是','然而','','','以及','可以','使'])

 

四.搜索

输入搜索词汇,分词处理,在Linklist链表遍历,并且进行去重处理。

 

    

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值