网页分析/挖掘中常用数据结构和算法

最新推荐文章于 2021-03-28 10:59:45 发布

iteye_14216

最新推荐文章于 2021-03-28 10:59:45 发布

阅读量560

点赞数

分类专栏： Data/Web Mining 文章标签：数据结构数据挖掘算法

Data/Web Mining 专栏收录该内容

20 篇文章 0 订阅

订阅专栏

网页在render的时候都生成DOM树的，所以树形的数据结构用的会比较多,常见的结构：
[url="http://en.wikipedia.org/wiki/Trie"]Trie[/url],
[url="http://en.wikipedia.org/wiki/Radix_tree"]Patricia tree/Radix tree[/url]一种trie的压缩形式，它把只有一个孩子的结点与他的孩子合并，这样边上
就会有多个Character
[url="http://en.wikipedia.org/wiki/Suffix_tree"]suffix tree[/url]
这几个结构对发现网页中的Repeat pattern以及结点相似度提供了一个线性的算法。
常用的算法有：String Edit Distance以及Tree Edit distance来比较结点子树的相似度，这种算法常常在raw DOM tree上进行的，这两个算法都是用了动态规划算法，复杂度都在n的平方级别。
已经有大量的论文基于这些结构和算法来实现网页block分析和结构化数据的挖掘。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。