简易全文搜索引擎设计

  最近利用空闲时间实现了一个简易的全文搜索引擎,主要是把学的东西练一下手,目前支持简单的单词搜索和基于用户点击实学习。其他部分还在继续开发(本文主要用以记录设计思路,完整代码等主要的做出来提交。)

1. 基本流程

 

2. 主要模块

2.1  内容获取

  定时运行爬取程序

2.2 分词

  调用结巴分词开源包(https://github.com/fxsjy/jieba)

2.3 基本数据组织结构

  2.3.1 单词与URL存取 
    URL: id, url 
    Word: id, word
    urlConnetword: urlID, wordID
   2.3.2 DNN网络结构 
    Input_to_Hidden:  inputid, hiddenid
    Hidden_to_Output: hiddenid, outpudid
    举例:
    Input    ->      Hidden     -> output

    Word1
        -> Word1_to_word2_id -> URL(包含了Word1与Word2的URL)
    Word2 

 

3. 个性推荐(后续补充)

转载于:https://www.cnblogs.com/space-place/p/7768283.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值