数据挖掘-基于模板的属性抽取

      信息抽取是一个互联网自然语言处理的一个首要环节,信息抽取的准确度会直接影响到后续的处理。信息抽取的目标是去除噪音,获取网页有价值的信息如网页的标题、时间、正文、链接等信息。

      根据工作中的实际应用,下面简单介绍一下基于网页模板的属性抽取方法:

       一、模板特征

       网页属于半结构化的文本,同一网站中的网页结构往往是固定的,网页中的内容可能随时改变,但网页的模板结构常常不变化,我们把这类网页称为特定领域的网页。

       二、抽取思路

       定位模板中需要抽取的重要属性信息,建立模板文件

        重要属性信息,如,url、标题、内容、时间、单位、作者、来源等;通过分析这些重要信息在网页中的位置特征和标签特征,来建立模板文件,模板文件含有:

        A:定位抽取的重要属性信息

        B:规则文件:用来和网页进行匹配(常用的方法,有正则表达式,字符串处理方法)

        我在工作中常用的模板文件:xml文件,因为xml文件是结构化的文件,容易识别和解析。

 

       三、优点

        1.网页通过模板转化为结构化数据

        2.网页的内容变化不需要修改代码

      

       四、缺点

        网页结构经常变化的网站,维护起来比较麻烦,代码需要修改。

 

 

      

 

 

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值