网页数据抽取的方法介绍

最新推荐文章于 2022-11-15 12:59:29 发布

WWWWWWWWolf

最新推荐文章于 2022-11-15 12:59:29 发布

阅读量197

点赞数

文章标签：数据库人工智能

网页数据抽取的方法介绍
http://scholar.google.com/scholar?hl=zh-CN&lr=lang_zh-CN&newwindow=1&q=cache:TEq4wMcpnU4J:www.insun.hit.edu.cn/upfiles/at2004111118424287159.pdf+author:%22%3F%3F%3F+intitle:%22%E4%B8%80%E7%A7%8D%E6%96%B0%E7%9A%84%E5%9F%BA%E4%BA%8E%E7%BB%9F%E8%AE%A1%E7%9A%84%E8%87%AA

早期从网站上抽取信息的方法基本上是基于手工操作的。程序员认真研究网站的结构后手工编写代码，开发一个分装器程序，把网页的逻辑特征抽取出来并把他们存入到数据库。TSIMMIS[13，25，28，29]系统和“斯坦福-IBM多信息源管理系统（1995）”是比较早的帮助建造分装器程序的框架系统。TSIMMIS的目标是以一体化的方式获取不同信息源的信息并且保证所获取信息一致性。其重点是开发支持这种包装过程的语言和工具。对于数据量大，结构动态变化的网站而言，需要一种更为有效的分装器建造方法。一般说来，数据库领域的人把注意力放在错综复杂的信息如何进行整合，分装器则用手工建造。另一方面，AI领域的人则把重点放在机器学习的方法如何能用在网站结构的自动学习上。本章将重点介绍分装器的自动或半自动的生成系统。分装器及其自动生成的复杂度和难易度将取决于网站结构的层次。第4 .1.节介绍的系统主要是针对结构化程度相对好的网站。这类系统多数是源自分装器生成领域的研究者。第4.2.节介绍了能处理结构缺少规范化的网页。这类系统较多地受到传统的IE领域的影响。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
网页数据抽取的方法介绍

网页数据抽取的方法介绍http://scholar.google.com/scholar?hl=zh-CN&amp;lr=lang_zh-CN&amp;newwindow=1&amp;q=cache:TEq4wMcpnU4J:www.insun.hit.edu.cn/upfiles/at2004111118424287159.pdf+author:%22%3F%3F%3F+intitle:%22%...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。