nlp事件抽取算例实现:(有完整算例和完整代码)

定义

事件抽取技术是从非结构化信息中抽取出用户感兴趣的事件,并以结构化呈现给用户。事件抽取任务可分解为4个子任务: 触发词识别、事件类型分类、论元识别和角色分类任务。其中,触发词识别和事件类型分类可合并成事件识别任务。论元识别和角色分类可合并成论元角色分类任务。事件识别判断句子中的每个单词归属的事件类型,是一个基于单词的多分类任务。角色分类任务则是一个基于词对的多分类任务,判断句子中任意一对触发词和实体之间的角色关系。

事件抽取任务:

事件有很多种,如因果事件,转则事件。。。
统一定义:一般一个事件都有事件,地点,人物等因素。
事件抽取就是把这些因素提取出来。
不多讲啦,上算例。

算例:

火灾新闻算例:
一个火灾事件新闻我们感兴趣的是 事故发生时间,事故发生地点,事故伤亡,事故原因。
我们把这些抽取出来.顺便再附上事件摘要。
即输入一个火灾事件新闻,输出 事故地点,事故时间,事故伤亡,事故原因,事故摘要。
方法:基于正则。

导入包:

#!/usr/bin/env python3
# -*- coding: utf-8 -*-
# @Author: yudengwu
# @Date  : 2020/6/27
import re

#事故原因:

def pattern_cause(data):
    "data.type: [文字]"
    data = str(data)

    patterns = []

    key_words = ['起火', '事故', '火灾']
    pattern = re.compile('.*?(?:{0})原因(.*?)[,.?:;!,。?:;!]'.format('|'.join(key_words)))
    patterns.append(pattern)
    for c in patterns:
        print('事故原因:',c.search(data).group(1))

#事故伤亡:

def pattern_lose(data):
    "data.type: [文字]"
    data = str(data)
    patterns = []

    key_words = ['伤亡', '损失']
    pattern = re.compile('.*?(未造成.*?(?:{0}))[,.?:;!,。?:;]'.format('|'.join(key_words)))
    patterns.append(pattern)

    patterns.append(re.compile('(\d+人死亡)'))
    patterns.append(re.compile('(\d+人身亡)'))
    patterns.append(re.compile('(\d+人受伤)'))
    patterns.append(re.compile('(\d+人烧伤)'))
    patterns.append(re.compile('(\d+人坠楼身亡)'))
    patterns.append(re.compile('(\d+人遇难)'))
    for i in patterns:
        jieguo = i.search(data)
        if not jieguo:
            pass
        else:
            print('事故伤亡:',jieguo.group(1))

#事故时间:

#事故时间:
def pattern_time(data):
    data = ''.join(test_data)# data.type :str
    PATTERN = r"([0-9零一二两三四五六七八九十]+年)?([0-9一二两三四五六七八九十]+月)?([0-9一二两三四五六七八九十]+[号日])?([上中下午晚早]+)?([0-9零一二两三四五六七八九十百]+[点:\.时])?([0-9零一二三四五六七八九十百]+分?)?([0-9零一二三四五六七八九十百]+秒)?"
    pattern = re.compile(PATTERN)
    m = pattern.search(data)
    # "19年1月14日18时19分39秒上午"
    m1 = pattern.search("上午")
    year=m.group(1) # 年
    month=m.group(2) # 月
    day=m.group(3) # 日
    am=m.group(4)  # 上午,中午,下午,早中晚
    hour=m.group(5) # 时
    minutes=m.group(6)  # 分
    seconds=m.group(7) # 秒
    print('事故时间: ',year,month,day,am,hour,minutes,seconds)

#事故地点:

#事件地点
def pattern_address(data):
    data = ''.join(data)#转换格式
    p_string = data.split(',')#分句
    address=[]
    for line in p_string:
        line = str(line)
        PATTERN1 = r'([\u4e00-\u9fa5]{2,5}?(?:省|自治区|市)){0,1}([\u4e00-\u9fa5]{2,7}?(?:区|县|州)){0,1}([\u4e00-\u9fa5]{2,7}?(?:镇)){0,1}([\u4e00-\u9fa5]{2,7}?(?:村|街|街道)){0,1}([\d]{1,3}?(号)){0,1}'
        # \u4e00-\u9fa5 匹配任何中文
        # {2,5} 匹配2到5次
        # ? 前面可不匹配
        # (?:pattern) 如industr(?:y|ies) 就是一个比 'industry|industries' 更简略的表达式。意思就是说括号里面的内容是一个整体是以y或者ies结尾的单词
        pattern = re.compile(PATTERN1)
        p1 = ''
        p2 = ''
        p3 = ''
        p4 = ''
        p5 = ''
        p6 = ''
        m = pattern.search(line)
        if not m:
            continue
        else:
            address.append(m.group(0))
            #print('事件地点:',m.group(0))

    print('事件地点:',set(address))

#事故摘要:
摘要讲解见链接:中文文本摘要提取 (文本摘要提取 有代码)基于python
停用词链接:nlp 中文停用词数据集

def shijian(data):
    import jieba
    text=''.join(data)
    text = re.sub(r'[[0-9]*]', ' ', text)  # 去除类似[1],[2]
    text = re.sub(r'\s+', ' ', text)  # 用单个空格替换了所有额外的空格
    sentences = re.split('(。|!|\!|\.|?|\?)', text)  # 分句

    # 加载停用词

    def stopwordslist(filepath):
        stopwords = [line.strip() for line in open(filepath, 'r', encoding='gbk').readlines()]
        return stopwords

    stopwords = stopwordslist("停用词.txt")

    # 词频
    word2count = {}  # line 1
    for word in jieba.cut(text):  # 对整个文本分词
        if word not in stopwords:
            if word not in word2count.keys():
                word2count[word] = 1
            else:
                word2count[word] += 1
    for key in word2count.keys():
        word2count[key] = word2count[key] / max(word2count.values())

    # 计算句子得分
    sent2score = {}
    for sentence in sentences:
        for word in jieba.cut(sentence):
            if word in word2count.keys():
                if len(sentence) < 300:
                    if sentence not in sent2score.keys():
                        sent2score[sentence] = word2count[word]
                    else:
                        sent2score[sentence] += word2count[word]

    # 字典排序
    def dic_order_value_and_get_key(dicts, count):
        # by hellojesson
        # 字典根据value排序,并且获取value排名前几的key
        final_result = []
        # 先对字典排序
        sorted_dic = sorted([(k, v) for k, v in dicts.items()], reverse=True)
        tmp_set = set()  # 定义集合 会去重元素 --此处存在一个问题,成绩相同的会忽略,有待改进
        for item in sorted_dic:
            tmp_set.add(item[1])
        for list_item in sorted(tmp_set, reverse=True)[:count]:
            for dic_item in sorted_dic:
                if dic_item[1] == list_item:
                    final_result.append(dic_item[0])
        return final_result

    # 摘要输出
    final_resul = dic_order_value_and_get_key(sent2score, 5)
    print('事件主要意思:',final_resul)

#主函数:

def main(data):
    pattern_cause(data)
    pattern_lose(data)
    pattern_time(data)
    pattern_address(data)
    shijian(data)
if __name__ =='__main__':
    #读取数据
    with open('新闻.txt', 'r', encoding='utf-8') as f:
        test_data = f.readlines()
    main(test_data)

数据集:新闻.txt

1月14日18时19分,宝鸡市渭滨区金陵街道机厂街社区铁路家属院17号楼一单元发生火灾,火势由二、三、四阳台向上蔓延,一名老人被困屋内,情况危急。宝鸡消防支队渭滨大队广元路中队接警后,迅速赶赴现场展开救援,将被困老人救出。记者了解到,火灾发生后,宝鸡消防支队渭滨大队广元路中队立即赶赴现场开展救援,经现场侦查发现,火势由二、三、四楼阳台向上蔓延,均已过火。由于小区内道路蜿蜒且狭窄,中队立即调派经一路、开元、宝光、电子街4个卫星消防站增援。中队到场后立即成立搜救组、灭火组、供水组开展救援工作。消防在搜救过程中发现1单元2楼南户有一名老人被困,中队立即进行营救,同时并对2单元30余名群众进行疏散。灭火小组从小区南北两侧对现场火势进行打压。铁塔路及新华路中队随后也赶到现场增援,20时10分现场明火被扑灭。火灾未造成人员伤亡,起火原因正在调查中。

运行结果
在这里插入图片描述
事件主题意思在下面:

截个全图看下:
在这里插入图片描述
运行结果还不错。
反思
这代码是针对国内新闻的,因为地址正则是针对国内地址的。
代码马马虎虎,不是很完善。针对其他类新闻和文本,则需修改下正则(如事事故伤亡可能没有)。
基于正则需要花费大量脑力。基于正则主要在于如何定义规则。
有时间还是想想基于模型吧。
电气工程的计算机萌新:余登武。写文章不容易。如果你喜欢本文章,请点个赞支持下写作,谢谢。
在这里插入图片描述
在这里插入图片描述

  • 38
    点赞
  • 127
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 3
    评论
很抱歉,作为AI语言模型,我无法提供可运行的代码。不过,我可以给您提供一些思路和建议来实现简单的自然语言处理。 首先,您需要选择一个自然语言处理库,如NLTK或SpaCy。这些库提供了许多有用的工具和函数,可用于分词、词性标注、命名实体识别、句法分析等任务。 接下来,您需要定义一个视图函数来处理用户输入。该函数应该从请求中获取用户输入的文本,并使用选定的自然语言处理库对其进行处理。最后,将处理结果返回给用户。 以下是一个简单的示例视图函数,演示如何使用NLTK库对用户输入的文本进行分词和词性标注: ```python import nltk from django.http import JsonResponse def nlp_view(request): # 获取用户输入的文本 text = request.GET.get('text', '') # 分词 tokens = nltk.word_tokenize(text) # 词性标注 tagged = nltk.pos_tag(tokens) # 将处理结果转化为JSON格式并返回给用户 data = {'tokens': tokens, 'tagged': tagged} return JsonResponse(data) ``` 您可以将此视图函数添加到您的Django应用程序中,并通过URL映射将其与特定的URL路径关联起来。例如,您可以将其与`/nlp/`路径关联起来: ```python from django.urls import path from . import views urlpatterns = [ path('nlp/', views.nlp_view, name='nlp'), ] ``` 现在,当用户访问`/nlp/?text=Hello%20world!`时,您的应用程序将返回以下JSON响应: ```json { "tokens": ["Hello", "world", "!"], "tagged": [["Hello", "NNP"], ["world", "NN"], ["!", "."]] } ``` 当然,这只是一个简单的示例。您可以根据需要添加其他自然语言处理功能,例如命名实体识别或句法分析。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

总裁余(余登武)

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值