实验目的是用python编写网络搜索程序,完成对一个特定网站的文本搜索。对站内网页内容进行分词并建立倒排索引结构,通过输入文本词汇,检索出站内所有网页内容中出现过此文本的网页。
流程是:抓取网页链接,分词,建立索引,对关键词分词后进行搜索。
一.链接抓取
由于不是简单地就在一个网站上进行正则匹配,得出结果,要在网站得到链接后,再以新得链接为基准,继续深度抓取,所以设置了以newpages为中间值的循环。
Crawl()引入BeatifulSoup包,用包中函数soup('a'),查找可能含有链接的部分,简单方便。通过判断初始四个字母为http,则把网页链接加入newpages参与循环。
每抓取一个链接,立即建立索引,引用addtoindex()函数。
二.分词
每网页建立索引addtoindex()之前,会先获取文本信息和分词处理,导入jieba包,引用jieba.cut_for_search()函数。
获取文本信息
分词处理
三.建立索引
创建3个链表类型,3个节点类型(括号中表示)。
Linklist(Node):对每一个网页分词后,将词加入此链表
Weblist(Web):把网页按照所拥有的词加入词链表,接在词的后面。
Resultlist(Result):搜索结果加入此链表
以及定义停用词ignorewords=set(['的','但是','然而','能','在','以及','可以','使'])。
四.搜索
输入搜索词汇,分词处理,在Linklist链表遍历,并且进行去重处理。