数据挖掘-基于模板的属性抽取

最新推荐文章于 2022-11-13 13:31:00 发布

shunqs

最新推荐文章于 2022-11-13 13:31:00 发布

阅读量1.6k

点赞数

分类专栏：数据挖掘篇文章标签：数据挖掘属性抽取模板 xml

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/shunqs/article/details/84618952

版权

数据挖掘篇专栏收录该内容

6 篇文章 0 订阅

订阅专栏

信息抽取是一个互联网自然语言处理的一个首要环节，信息抽取的准确度会直接影响到后续的处理。信息抽取的目标是去除噪音，获取网页有价值的信息如网页的标题、时间、正文、链接等信息。

根据工作中的实际应用，下面简单介绍一下基于网页模板的属性抽取方法：

一、模板特征

网页属于半结构化的文本，同一网站中的网页结构往往是固定的，网页中的内容可能随时改变，但网页的模板结构常常不变化，我们把这类网页称为特定领域的网页。

二、抽取思路

定位模板中需要抽取的重要属性信息，建立模板文件

重要属性信息，如，url、标题、内容、时间、单位、作者、来源等；通过分析这些重要信息在网页中的位置特征和标签特征，来建立模板文件，模板文件含有：

A：定位抽取的重要属性信息

B：规则文件：用来和网页进行匹配（常用的方法，有正则表达式，字符串处理方法）

我在工作中常用的模板文件：xml文件，因为xml文件是结构化的文件，容易识别和解析。

三、优点

1.网页通过模板转化为结构化数据

2.网页的内容变化不需要修改代码

四、缺点

网页结构经常变化的网站，维护起来比较麻烦，代码需要修改。

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。