Python实现抓取链接/分词/索引/搜索关键词——简单搜索引擎

最新推荐文章于 2024-08-22 07:46:32 发布

维多利亚的裙摆

最新推荐文章于 2024-08-22 07:46:32 发布

阅读量2.3w

点赞数 9

分类专栏： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_27483535/article/details/53149021

版权

python 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

实验目的是用python编写网络搜索程序，完成对一个特定网站的文本搜索。对站内网页内容进行分词并建立倒排索引结构，通过输入文本词汇，检索出站内所有网页内容中出现过此文本的网页。

流程是：抓取网页链接，分词，建立索引，对关键词分词后进行搜索。

一．链接抓取

由于不是简单地就在一个网站上进行正则匹配，得出结果，要在网站得到链接后，再以新得链接为基准，继续深度抓取，所以设置了以newpages为中间值的循环。

Crawl()引入BeatifulSoup包，用包中函数soup('a')，查找可能含有链接的部分，简单方便。通过判断初始四个字母为http，则把网页链接加入newpages参与循环。

每抓取一个链接，立即建立索引，引用addtoindex()函数。

二．分词

每网页建立索引addtoindex()之前，会先获取文本信息和分词处理，导入jieba包，引用jieba.cut_for_search（）函数。

获取文本信息

分词处理

三．建立索引

创建3个链表类型，3个节点类型(括号中表示)。

Linklist(Node):对每一个网页分词后，将词加入此链表

Weblist(Web):把网页按照所拥有的词加入词链表，接在词的后面。

Resultlist(Result):搜索结果加入此链表

以及定义停用词ignorewords=set(['的','但是','然而','能','在','以及','可以','使'])。

四．搜索

输入搜索词汇，分词处理，在Linklist链表遍历，并且进行去重处理。

维多利亚的裙摆

关注

9
点赞
踩
82

收藏

觉得还不错? 一键收藏
4
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。