项目实训 : 搜索引擎构想

由于古籍中存在大量的古文字,现存的搜索引擎对其支持度并不满意,于是我决定自己写一个小型的搜索引擎,以专门服务器与我们的古籍。

构思

存储

我们的目的是根据前端传入个个别字句进行文章的匹配。文章并不会包含字符,字符主要是存在Page中,Page包含了其父文章的id,并且存有具体的内容,我们可以根据这一特征构建一个BO,用于将不同的SdudocArticle转化为具有具体内容的SearchableArticleBO

SearchableArticleBO应该具有以下内容:

属性类型说明
articleIdStringSdudocArticle的唯一标识
contentString文章包含的完整内容

然后我们根据content进行中文分词,将其分为若干个不相同的字词并对这些字词进行存储,存储为实体SearchableSegment,大致内容:

SearchableSegment

属性类型说明
contentString唯一标识,同时也为该片段的文本信息,具有唯一性
articleIdListList文章的反向索引列表

由于存在列表,故使用MongoDB存储。

修改

其次,由于文章内容并不是一成不变的,所以还需要考虑当文章内容出现变动时,该如何修改当前的存储信息。

那么首先我们就必须直到我这篇文章关联了多少SearchableSegment,这也就意味着片段拥有逆向索引的同时,article也应当维护一个正向索引

SearchableArticle

属性类型说明
articleIdString文章id,与SdudocArticle的ID对应
segmentListList片段的正向索引

当文章内容出现变更时,可以根据比较其segment的异同来判断哪些segment被移除,哪些是新添加的。然后根据正向索引去相应修改segment的逆向索引。

查找

查找是一个比较需要探讨的话题了,查找的精度其实是和传入的文本长度有关的,如果文本长度足够长,那么搜索引擎就更能精确的找到他想要的东西。当前端传来一个字符的时候,并不会走搜索引擎,因为如果搜索引擎要将segment细化到一个文字的话,会造成存储量爆炸,并且索引数量也是几何式的增加,这并不是我们想要的结果。我们关心的是长度在两个或两个以上,真正能形成词组的搜索文本。

那么对于单个文字,我们的搜索可以直接去SdudocPage里通过模糊查找符合条件的page并把page对应的文章进行汇总后返回,如果数量过大则采用分页的方式。

对于长文本,我们对其进行一次分词操作,将其分成若干个不同的部分。按照设计理念,我们应当实现按照相关程度顺序返回文章,那么问题来了,如何判断相关程度呢?

记得当时在学习数据科学导论的时候学会了一种tf-idf的方法,并利用余弦相似度进行匹配,但是那种方法主要用于匹配两个文本,而我们这里为了实现快速的查找,不能逐一进行匹配评分然后排序,而是之间比对,然后根据比对的结果来评分。我想到的切入点有两个:

  1. 根据匹配的个数来评分

    由于一段文本可以被分为若干个部分,然后按照文章匹配文本段数的多少来进行排序,比如说文章a包含了我的搜索文本的6个片段,而文章b只包含了2个,那么我可以以很高的置信度下判断认为文章a比文章b更符合搜索内容。

  2. 根据关键字进行评分

    一段分本并不是所有片段都是有用的,我们可以根据关键信息来进行加权评分,综合匹配个数来个出一个最终的分数。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
后台采用apache服务器下的cgi处理c语言微信小程序后台逻辑的脚本映射。PC端的服务器和客户端都是基于c语言写的。采用mysql数据库进行用户数据和聊天记录的存储。.zip C语言是一种广泛使用的编程语言,它具有高效、灵活、可移植性强等特点,被广泛应用于操作系统、嵌入式系统、数据库、编译器等领域的开发。C语言的基本语法包括变量、数据类型、运算符、控制结构(如if语句、循环语句等)、函数、指针等。下面详细介绍C语言的基本概念和语法。 1. 变量和数据类型 在C语言中,变量用于存储数据,数据类型用于定义变量的类型和范围。C语言支持多种数据类型,包括基本数据类型(如int、float、char等)和复合数据类型(如结构体、联合等)。 2. 运算符 C语言中常用的运算符包括算术运算符(如+、、、/等)、关系运算符(如==、!=、、=、<、<=等)、逻辑运算符(如&&、||、!等)。此外,还有位运算符(如&、|、^等)和指针运算符(如、等)。 3. 控制结构 C语言中常用的控制结构包括if语句、循环语句(如for、while等)和switch语句。通过这些控制结构,可以实现程序的分支、循环和多路选择等功能。 4. 函数 函数是C语言中用于封装代码的单元,可以实现代码的复用和模块化。C语言中定义函数使用关键字“void”或返回值类型(如int、float等),并通过“{”和“}”括起来的代码块来实现函数的功能。 5. 指针 指针是C语言中用于存储变量地址的变量。通过指针,可以实现对内存的间接访问和修改。C语言中定义指针使用星号()符号,指向数组、字符串和结构体等数据结构时,还需要注意数组名和字符串常量的特殊性质。 6. 数组和字符串 数组是C语言中用于存储同类型数据的结构,可以通过索引访问和修改数组中的元素。字符串是C语言中用于存储文本数据的特殊类型,通常以字符串常量的形式出现,用双引号("...")括起来,末尾自动添加'\0'字符。 7. 结构体和联合 结构体和联合是C语言中用于存储不同类型数据的复合数据类型。结构体由多个成员组成,每个成员可以是不同的数据类型;联合由多个变量组成,它们共用同一块内存空间。通过结构体和联合,可以实现数据的封装和抽象。 8. 文件操作 C语言中通过文件操作函数(如fopen、fclose、fread、fwrite等)实现对文件的读写操作。文件操作函数通常返回文件指针,用于表示打开的文件。通过文件指针,可以进行文件的定位、读写等操作。 总之,C语言是一种功能强大、灵活高效的编程语言,广泛应用于各种领域。掌握C语言的基本语法和数据结构,可以为编程学习和实践打下坚实的基础。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值