WEB网页结构化信息抽取技术介绍(网页库级)

最新推荐文章于 2022-11-24 18:41:04 发布

mealsee

最新推荐文章于 2022-11-24 18:41:04 发布

阅读量942

点赞数

文章标签： web 搜索引擎电话咨询

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/mealsee/article/details/2607663

版权

WEB结构化信息抽取就是将网页中的非结构化数据按照一定的需求抽取成结构化数据。是垂直搜索引擎和通用搜索引擎最大的差别。、

　　如：比较购物搜索那就需要抓取网页后，对网页中的商品信息进行抽取，抽取出商品名称、价格、简介……甚至可以进一步将笔记本简介细分成“品牌、型号、CPU、内存、硬盘、显示屏、……”

　　房产信息搜索那就应该抽取出那应该抽取出：类型、地域、地址、房型、面积、装修情况、租金、联系人、联系电话……

　　公司企业信息搜索那就应该抽取出：公司名称、地址、电话、联系人…… 　　…………

　　结构化信息抽取有两种方式可以实现，比较简单的是模板方式，还有一种是对网页不依赖的网页库级的结构化信息抽取方式，网页库结构化信息抽取是采用页面结构分析与智能节点分析转换的方法，自动抽取结构化的数据。

　　特点：可对任意的正常网页进行抽取，完全自动化，不用对具体网站事先生成模板，对每个网页自动实时得生成抽取规则，完全不需要人工干预。智能抽取准确率高，不是机械的匹配，采用智能分析技术，准确率能达到98%以上。能保证较快处理速度，由于采用页面的智能分析技术，先去除了垃圾块，降低分析的压力，是处理速度大大提高。通用性较好，易于维护，只需设定参数、配置相应的特征就能改进相应的抽取性能；一般的非专业人员经过简单培训就能维护。　　缺点：技术难度高，前期研发成本高，周期长。适合网页库级别结构化数据采集和搜索的高端应用。

我们的技术是对网页不依赖的web结构化信息抽取技术，适合高端的垂直搜索应用或者高端的竞争情报分析系统。

文章由 Kamovo 网站策划咨询机构转载

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
WEB网页结构化信息抽取技术介绍(网页库级)

WEB结构化信息抽取就是将网页中的非结构化数据按照一定的需求抽取成结构化数据。是垂直搜索引擎和通用搜索引擎最大的差别。、　　如：比较购物搜索那就需要抓取网页后，对网页中的商品信息进行抽取，抽取出商品名称、价格、简介……甚至可以进一步将笔记本简介细分成“品牌、型号、CPU、内存、硬盘、显示屏、……” 　　房产信息搜索那就应该抽取出那应该抽取出：类型、地域、地址、房型、面积、装修
复制链接

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。