简易全文搜索引擎设计

最新推荐文章于 2024-07-30 01:12:00 发布

weixin_30820151

最新推荐文章于 2024-07-30 01:12:00 发布

阅读量205

点赞数

原文链接：http://www.cnblogs.com/space-place/p/7768283.html

版权

　　最近利用空闲时间实现了一个简易的全文搜索引擎，主要是把学的东西练一下手，目前支持简单的单词搜索和基于用户点击实学习。其他部分还在继续开发（本文主要用以记录设计思路，完整代码等主要的做出来提交。）

1. 基本流程

2. 主要模块

2.1 内容获取

　　定时运行爬取程序。

2.2 分词

　　调用结巴分词开源包(https://github.com/fxsjy/jieba)

2.3 基本数据组织结构

　　2.3.1 单词与URL存取　

　　　　URL: id, url 
　　　　Word: id, word
　　　　urlConnetword: urlID, wordID

　　2.3.2 DNN网络结构　

　　　　Input_to_Hidden:  inputid, hiddenid
　　　　Hidden_to_Output: hiddenid, outpudid
　　　　举例：
　　　　Input    ->      Hidden     -> output

　　　　Word1
　　　　　　　　-> Word1_to_word2_id -> URL(包含了Word1与Word2的URL)
　　　　Word2