屏蔽词、模糊检索实现—字典树的应用

原文转载:http://www.tanjp.com (即时修正和更新)

屏蔽词、模糊检索实现—字典树的应用

名词简述

屏蔽词,就是预先给定一些词汇,在整个产品中都不能有这些词汇出现,譬如文字聊天,用户名,帮派名等等,反正所有涉及到文字输入的地方都需要过滤这些屏蔽词。在项目中,屏蔽词功能基本上是必须的,要不然上线都没法通过版署的审核。

模糊检索,其实这是一大块专业领域,涉及面很广。其实,在实际游戏项目中也用不上这么负责的搜索。这里只是实现指定前缀,模糊检索包含此前缀的文本列表。

字典树是一种用于快速检索的多叉树结构。

(1)根节点不包含字符,除根节点意外每个节点只包含一个字符。

(2)从根节点到某一个节点,路径上经过的字符连接起来,为该节点对应的字符串。

(3)每个节点的所有子节点包含的字符串不相同。

 

 

思路

从上图字典树的数据结构来看,是很好解决屏蔽词和模糊检索的问题。只是可能在实现上需要预先通过给定的词汇建立一颗字典树,而且为了兼容各种文本编码,需要把文本拆分为最小单元——字节,来进行字典树的建立。也就是说每个字典树节点的子节点都是一个大小为2的8(一个字节8位)次方等于256的字节数组。在实际应用中,建立一个这样的字典树结构是比较耗费内存的,但是匹配的时间复杂度几乎达到最小,是比较典型的通过空间换取时间性能的例子。

 

代码

字典树:

#define FFTN_CHILDREN_LIMIT 256

class FFTrieNode {

private:

// 此节点的值

unsigned char mn_value;

//子节点数

uint32 mn_child_count;

// 记录此处是否构成一个完整词

bool mb_complete;

// 指向下一个节点的数组

FFTrieNode *mp_children[FFTN_CHILDREN_LIMIT];

public:

FFTrieNode(char pn_value)

: mn_value(pn_value)

, mn_child_count(0)

, mb_complete(false) {

for (int i = 0; i < FFTN_CHILDREN_LIMIT; ++i)

mp_children[i] = 0;

}

 

virtual ~FFTrieNode(){

for(int i = 0; i < FFTN_CHILDREN_LIMIT; ++i)

{

if(mp_children[i] != 0)

delete mp_children[i];

}

}

FFTrieNode *get(unsigned char pn_index) const {

if(pn_index >= FFTN_CHILDREN_LIMIT && pn_index < 0)

return 0;

return mp_children[pn_index];

}

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值