一种词库的比对、保存方式

一种词库的比对、保存方式

词库以树状链表存储,示意图如下:

对于词库:{A,AB,ABC,ADE}可以按以下方式存储

注:每个链表在末尾添加\0表示结束

1 数组形式存储的空间复杂度为O(N^2)   即O(N*M) -N为敏感词长度,M是敏感词个数

2 而用这个树状链表 空间复杂度为 O( N)  即O( K*N) -k为字符种类数为常数,N敏感词长度。

在检索时:

1 数组形式检索 时间复杂度为 O(N^3);

这时用三重循环

  1. 第一重 是遍历文章,
  2. 第二重 是从第i个字出发,与之后j个字组成词。
  3. 第三重 是将词与敏感词比对。

2 将文章和树状链表的关键词比对,时间复杂度为 O(f(N^2))

详细为O(f(K*N*M)) K为常数,是单个字符的种类数;N是文章的字数,M是关键词的长度

算法采用两重循环:

  1. 第一重 是遍历文章
  2. 第二重 是同时从文章第i位开始和 和树状链表的中 同时提取出j长度的词来对比。

具体代码如下:

树状链表如下:

    public class WordNode
    {
        public char word;
        public List<WordNode> children;
    }

比对方法如下:

        /// <summary>
        /// 查找敏感词
        /// </summary>
        /// <param name="txt">要处理的文章</param>
        /// <returns>处理后的文章</returns>
		public string HandleTxt(string txt)
        {
            _txt_Compare = txt;

            for (int i = 0; i < txt.Length; i++)
            {
                int len = IsMacthTree2(i, _wordTree);
                if (len > 0)
                {
					// 对i开始,长度len的敏感词处理。
                }
            }			
            return txt;
        }
		
		/// <summary>
        /// 树状结构的敏感词库
        /// </summary>
        private List<WordNode> _wordTree
        {
            get; set;
        }

        // 用于递归比较方法中的 记录文章变量。用索引分割,避免递归中截取大量字符变量
        private string _txt_Compare;       

        /// <summary>
        /// 检测文本中是否存在敏感词
        /// </summary>
        /// <param name="txtStart">从文章的txtStart位开始匹配</param>
        /// <param name="tree">敏感词库</param>
        /// <returns>敏感词长度</returns>
        private int IsMacthTree(int txtStart, List<WordNode> tree)
        {
            // txtStart 已经位于文章结束位置。即文章已经检查完。
            if (txtStart > _txt_Compare.Length - 1)
                return 0;

            // 在最大K常量的数组中查找
            int idx = tree.FindIndex(t => t.word == _txt_Compare[txtStart]);

            // 字不匹配,也就是:abe abc 这种情况
            if (idx == -1)
            {
                return 0;// 这轮递归,没有匹配
            }
			
            // 如果有\0 即敏感词比对结束
            if (tree[idx].children[0] == Thesaurus.EndSign)
            {
                return 1; // 这轮递归,匹配了一个字
            }

            // 文字或关键字未结束,也就是:ab* ab* 这种情况,继续递归
            int templen = IsMacthTree2(txtStart + 1, tree[idx].children);
            // 有一个不匹配 就固定为0
            if (templen == 0)
            {
                return 0; //匹配失败
            }
            else
            {
                return 1 + templen;  // 递归匹配成功,然后加上本轮匹配的一个字再返回。
            }
        }

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值