新闻人物言论自动提取

相关背景:

面对互联网信息量的不断扩张,用户迫切地需要自动化的信息获取工具来帮助在海量的信息源中迅速找到和获得真正所需的信息。主要相关方面的研究有自动摘要、关键词提取以及人物言论的自动提取,这些都可以帮助用户快速准确的获取其所需的真正信息,节省用户时间,提高用户体验。其中新闻人物言论自动提取就可以帮助用户在新闻阅读、观点总结中能够发挥较大的辅助作用。

什么是新闻人物言论:

新闻人物言论即是在报道的新闻中,某个人物、团体或机构在某个时间、某个地点表达某种观点、意见或态度。

提取出来的言论的后续应用:

1、话题检测与跟踪

2、建立人物观点图谱

3、对人物言论进行情感分类

4、舆情监督,可以感控相关人员情绪,便于领导更好的决策等

目前的方法:

1、基于规则(模式匹配)

主要包括模式获取模块、信息抽取模块。其中包括词法分析、NER、句法分析等。

2、基于统计(机器学习)

主要包括触发词、类别识别、事件元素识别等。

一、确定言论事件

触发词表建立:

1)首先人工建立触发词集作为种子;

2)通过种子到哈工大同义词林和知网的同义词林中去遍历查找;

3)如果某义项包含所有词中有K个以上都是在已建立的触发词词表中,则全部添加到同义词表中,其中K为同义扩展的阈值,一般K取3或者4;

4)触发词词表一般控制在100以内,太多在自动提取时会造成干扰,可以再手动整理缩小范围。

中心人物识别:

NER命名实体识别具体分为三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比),这里主要涉及包括人名,组织名,机构名即可。可以用pylyp工具包,stanfordnlp工具包以及深度学习基于BI-LSTM+crf算法进行提取。如果是垂直领域的小语料,可以采用人工辅助的方法建立中心人物词表。

言论事件:

一个包含能回退找到中心人物词的言论触发词的句子或句子的一部分,称为以此触发词为中心的言论事件。

言论事件二元判别:

包括候选事件中的事件触发词、触发词的词性信息、触发词和中心人物之间的距离等。

二、言论事件抽取

步骤流程:

                                   

 

三、确定言论结束

可以是以一句话作为停止。但是有的言论是有多句的,这里可以用tfidf将两个句子向量化,判断两句句话是不是类似的、说得同一个主题,这个问题变成这两个句子的距离是不是小于某个阈值。

 

依存句法分析:

依存句法分析定位需要提取的句子

 

初步实践效果:

原文如下:

string1 = """
台湾工业总会是岛内最具影响力的工商团体之一,2008年以来,该团体连续12年发表对台当局政策的建言白皮书,集中反映岛内产业界的呼声。

台湾工业总会指出,2015年的白皮书就特别提到台湾面临“五缺”(缺水、缺电、缺工、缺地、缺人才)困境,使台湾整体投资环境走向崩坏。然而四年过去,“五缺”未见改善,反而劳动法规日益僵化、两岸关系陷入紧张、对外关系更加孤立。该团体质疑,台当局面对每年的建言,“到底听进去多少,又真正改善了几多”?

围绕当局两岸政策,工总认为,由数据来看,当前大陆不仅是台湾第一大出口市场,亦是第一大进口来源及首位对外投资地,建议台湾当局摒弃两岸对抗思维,在“求同存异”的现实基础上,以“合作”取代“对立”,为台湾多数民众谋福创利。

工总现任理事长、同时也是台塑企业总裁的王文渊指出,过去几年,两岸关系紧张,不仅影响岛内观光、零售、饭店业及农渔蔬果产品的出口,也使得岛内外企业对投资台湾却步,2020年新任台湾领导人出炉后,应审慎思考两岸问题以及中国大陆市场。

    """

实践结果:


{'0': ['总会', '指出', ',2015年的白皮书就特别提到台湾面临“五缺”(缺水、缺电、缺工、缺地、缺人才)困境,使台湾整体投资环境走向崩坏。'], 
'1': ['白皮书', '提到', '台湾面临“五缺”(缺水、缺电、缺工、缺地、缺人才)困境,使台湾整体投资环境走向崩坏。'],
 '2': ['工总', '认为', ',由数据来看,当前大陆不仅是台湾第一大出口市场,亦是第一大进口来源及首位对外投资地,建议台湾当局摒弃两岸对抗思维,在“求同存异”的现实基础上,以“合作”取代“对立”,为台湾多数民众谋福创利。'], 
'3': ['王文渊', '指出', ',过去几年,两岸关系紧张,不仅影响岛内观光、零售、饭店业及农渔蔬果产品的出口,也使得岛内外企业对投资台湾却步,2020年新任台湾领导人出炉后,应审慎思考两岸问题以及中国大陆市场。']}

 

相关参考:人物言论抽取与跟踪技术研究 

  • 2
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Steven灬

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值