linux种子搜索关键字,基于 DHT 网络的磁力链接和BT种子的搜索引擎架构

本文介绍了基于DHT网络的磁力链接和BT种子搜索引擎的架构,包括使用Scrapy爬虫抓取数据,PHP CI框架构建的网站,MySQL作为搜索引擎,以及新词发现机制。系统通过爬取豆瓣来改善分词效果,并利用DHT节点获取热门种子信息。此外,还讨论了英文分词和DHT网络的工作原理。
摘要由CSDN通过智能技术生成

上周开发了一个磁力链接和 BT 种子的搜索引擎 {Magnet & Torrent} ,本文简单介绍一下主要的系统功能和用到的技术。

系统包括几个独立的部分:

使用 Python 的 Scrapy 框架开发的网络爬虫,用来爬取磁力链接和种子;

使用 PHP CI 框架开发的简易网站;

搜索引擎目前直接使用的 MySQL,将来可以考虑使用 sphinx;

新词发现机制

基于搜索关键词的新词发现机制。

目前词库方面还有一个很大的问题,比如最新的电影无法分词,例如 星际穿越 会被分词为“星际”和“穿越”,因此“被偷走的那五年, 穿越 火线,极速蜗牛,了不起的盖茨比,摩登年代, 星际 迷航,乔布斯传。”也出现在了搜索结果中。

当然这也不算事大问题,但是 霍比特人 却被分词为了“霍”、“比特”、“人”了,好在搜索结果里面没有啥东西乱入。这些属于过度分词,通过增加词库内容可以解决,因此准备些一个豆瓣爬虫,将豆瓣的所有电影都加入词库,用来辅助分词。

资源别名

这会使我们的系统更加智能,更加人性化。我们在百度搜索时,经常会遇到这样的情况,当我们搜索“开核桃利器”,百度提示我们“您要找的 是不是诺基亚?”。当我们搜索“世界上最好的语言”,百度提示我们“您要找的是不是PHP?”。同样,当用户搜索“星际穿越”时,应该为用户提供 Interstellar的匹配结果。

我们不用实现复杂的在线翻译,只需要继续爬取豆瓣,将电影的中英文都做成对照表就可以了。而且࿰

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值