Identifying Hierarchical Structure in Sequences: A linear-time algorithm 1997

一.论文摘要

论文提出Sequitur算法,该算法可以从字符序列中推导出潜在的语法。算法优势在于:

1.时间空间复杂度为O(n)

2.可以动态的生成语法

 

二.之前论文的不足

1.文本的压缩技术旨在建立可靠的模型去预测即将读入的新字符以便可以对字符进行编码,但所建立的模型相当晦涩难懂,所以很难直观的展现文本中的结构。

2.一些基于语法推理的技术则有一个共同的缺点,就是他们只能处理已经句式化的文本,而不能处理流数据。

 

三.Sequitur算法

1.两条基本规则

1)唯一性:语法中不会出现2次相同连续字符   ----当这条规则被打破时,生成新的语法

2)每条生成的语法至少被使用2次                ----当这条规则被打破时,删除没有用的语法

 

四.算法的实际运用

对于输入语句 In the beginning, god created the heaven and the earth, 算法区分出了 begin 和 ning, 而这个真是英语语法的一种。

 

五.Sequitur算法数据结构

A <--> [ ] <--> B <--> c <-->  d-|

           ^------ |----------------

                       |

-----------------

|

V

B <--> [ ] <-->  <-->

这里有A和B两个语法,用的是双向链表,[ ]是safe guard, 永远不会变;A里面的B有指向单独的B的头的指针。

此外每个语法(每个双向链表)都有一个count变量,记录该语法使用次数,出现一次增1,消失一次减1,当记录值为1时,删除语法。

用hash来存储digram(2个连续的字符)

 

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值