网页爬虫、中文分词、全文搜索及自动定时调度

最新推荐文章于 2024-03-20 09:12:09 发布

11097082

最新推荐文章于 2024-03-20 09:12:09 发布

阅读量3.3k

点赞数

分类专栏：中文分词自动调度网站爬虫索引全文搜索文章标签： url 数据库 html

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/11097082/article/details/7749677

版权

中文分词同时被 3 个专栏收录

1 篇文章 0 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

如题，实现网页爬虫，将制定URL下的网页内容进行爬查，去掉HTML代码后保存到本地，并对这些内容进行中文分词，建立索引，而后提供全文搜索服务。爬虫、分词并建立索引，可以单独执行，也可以整合在一起进行定时调度而无需人工干预。不需要安装任何数据库，部署简单。部署好之后就可以马上对自己的网站进行爬虫、建立索引后就可以提供全文搜索服务，还可以通过JS方式，跨域提供全文搜索。

全文搜索页面（之所以标题都是一样，那是因为这个网站所有网页的TITLE标签值都是这个）：

爬虫（搜索器）设置，可以设置多个互相独立的爬虫，只要相应的设置好相关参数即可：

搜索器顶层URL设置，也就是设置好需要向哪些网址进行爬查，每一个搜索器都可以设置多个顶层URL：

爬虫与索引调度设置，可以为每一个搜索器设置一个调度器，可以按分钟、小时、每天、每周、每月进行设置，设置好之并执行调度器，可以进行自动调度爬虫，爬虫执行完毕之后自动进行分词与建立索引：

调度正在执行之时，可以进行软停止，或者硬停止；软停止是当调度器正在进行爬查或者建立索引时，先等待它们完成之后再停止，而硬停止则是无论目前调度器正在做什么，都必须马上停止。

网站爬虫，也就是可以单独执行某个爬虫：

建立索引，就是可以单独对某个爬虫爬查的结果进行建立索引，这里有一个复选框，勾选后，就会当在临时索引目录建立了最新的索引之后，通过这个设置，就可以马上利用最新的索引文件提供全文搜索服务了。

用户管理，提供这个软件的用户管理：

登陆界面：

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。