网页分析/挖掘中常用数据结构和算法

网页在render的时候都生成DOM树的,所以树形的数据结构用的会比较多,常见的结构:
[url="http://en.wikipedia.org/wiki/Trie"]Trie[/url],
[url="http://en.wikipedia.org/wiki/Radix_tree"]Patricia tree/Radix tree[/url]一种trie的压缩形式,它把只有一个孩子的结点与他的孩子合并,这样边上
就会有多个Character
[url="http://en.wikipedia.org/wiki/Suffix_tree"]suffix tree[/url]
这几个结构对发现网页中的Repeat pattern以及结点相似度提供了一个线性的算法。
常用的算法有:String Edit Distance以及Tree Edit distance来比较结点子树的相似度,这种算法常常在raw DOM tree上进行的,这两个算法都是用了动态规划算法,复杂度都在n的平方级别。
已经有大量的论文基于这些结构和算法来实现网页block分析和结构化数据的挖掘。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值