CMNEE:首个大规模文档级开源中文军事新闻事件抽取数据集.

2024-04-18,由国防科技大学大数据与决策实验室联合东南大学和清华大学共同创建了CMNEE数据集,这个数据集为军事领域的事件抽取研究提供了宝贵的资源,解决了该领域数据稀缺的问题,对情报分析和决策辅助等应用具有重要意义。

数据集地址:CMNEE(Chinese Military News Event Extraction dataset)|军事新闻分析数据集

一、研究背景:

事件抽取是从非结构化文本中提取结构化信息的过程,它通常被分为两个子任务:事件检测和事件论元抽取。尽管当前研究主要集中在一般新闻或金融领域,军事领域的事件抽取同样不可忽视,因为军事文档中包含了丰富的事件信息,对这些信息的抽取对于情报分析、决策辅助和战略规划等下游应用至关重要。

目前遇到困难和挑战:

1、军事领域数据稀缺,阻碍了事件抽取模型的研究发展。

2、现有事件抽取数据集多针对一般或金融领域,军事领域专用数据集严重缺乏。

3、军事文本的复杂性和敏感性导致事件抽取任务面临独特挑战,需要专门的数据集和模型来应对。

数据集地址:CMNEE|自然语言处理数据集|军事新闻分析数据集

二、让我们来一起看一下CMNEE数据集

CMNEE是一个大规模的文档级开源中文军事新闻事件抽取数据集,包含17000份文档和29223个事件,覆盖8种事件类型和11种论元角色类型。

CMNEE数据集基于开源的中文军事新闻构建,旨在推动军事领域事件抽取技术的发展。数据集中的事件类型包括实验、机动、部署、支援、事故、展示、冲突和伤害等,论元角色类型则包括主体、对象、时间等。

数据集构建 :

数据集的构建过程包括数据收集、预处理、事件模式构建、预标注、人工标注和质量评估等步骤。通过两阶段多轮次的人工标注策略,确保了数据集的质量。

数据集特点 :

1、大规模:包含17000份文档,是军事领域最大的文档级事件抽取数据集。

2、多事件:文档中平均含有1.8个事件,近一半的文档包含两个或更多事件。

3、重叠事件:42%的实例包含重叠事件,增加了事件抽取的复杂性。

4、长论元:军事文本中涉及的专有名词较多,长论元的比例较高。

研究人员可以使用CMNEE数据集来训练和评估事件抽取模型,包括事件检测和事件论元抽取。数据集提供了预定义的事件类型和论元角色类型,方便研究人员进行模型开发和测试。

基准测试 :

通过对比几种先进的基线模型在CMNEE上的表现,实验结果表明CMNEE具有独特的挑战性,需要进一步的研究努力。例如,BERT+CRF模型由于CRF在建模多事件相关性方面的优势,在CMNEE上表现较好。

CMNEE 的事件架构

质量指标的定义

三、让我们一起展望CMNEE数据集的应用场景

比如,你是一名计算机科学家,正在为军队开发一种新的智能系统,这个系统能够帮助分析大量的军事新闻报道,自动找出里面的事件,比如某个国家进行了军事演习,或者两个国家之间发生了冲突。这些信息对于军队来说非常重要,因为它们需要快速了解全球的军事动态。

现在,你手头有CMNEE数据集,这个数据集就像是你的宝藏,里面包含了17000篇军事新闻报道,每篇报道都已经被人工仔细地标注了事件信息。比如,有一篇报道讲的是“2023年,某个国家在某个海域进行了军事演习”,在这篇报道里,人工标注者已经标出了“军事演习”这个事件,还标出了事件的类型、发生的时间、地点等详细信息。

你的任务就是利用这些标注好的数据来训练一个智能模型。你可以把这些数据输入到你的模型中,让模型学习如何从新闻报道的文本中找出事件,并且识别出事件的类型和相关参数。比如,模型需要学会从“2023年,某个国家在某个海域进行了军事演习”这句话中识别出“军事演习”这个事件,并且知道这个事件发生在2023年。

训练好模型后,你需要评估它的性能,看看它是不是真的能准确地从新的新闻报道中抽取出事件信息。这时候,CMNEE数据集又派上用场了,你可以用数据集中的另一部分没有用来训练模型的新闻报道来测试你的模型。如果模型能够准确地识别出这些测试报道中的事件和参数,那就说明模型训练得很成功。

通过CMNEE数据集,你的模型能够变得更加智能,更准确地理解和分析军事新闻中的事件,这对于军队来说是一个巨大的帮助。这就是CMNEE数据集在事件抽取模型开发与评估中的具体应用案例。

更多免费的数据集,请打开数据搜索引擎和平台:遇见数据集

遇见数据集-让每个数据集都被发现,让每一次遇见都有价值遇见数据集,国内领先的百万级数据集搜索引擎,实时追踪全球数据集市场,助力把握数字经济时代机遇。icon-default.png?t=O83Ahttps://www.selectdataset.com/

496,835 条来自 AG 新闻语料库 4 大类别超过 2000 个新闻源的新闻文章,数据集仅仅援用了标题和描述字段。每个类别分别拥有 30,000 个训练样本及 1900 个测试样本。 README: AG's News Topic Classification Dataset Version 3, Updated 09/09/2015 ORIGIN AG is a collection of more than 1 million news articles. News articles have been gathered from more than 2000 news sources by ComeToMyHead in more than 1 year of activity. ComeToMyHead is an academic news search engine which has been running since July, 2004. The dataset is provided by the academic comunity for research purposes in data mining (clustering, classification, etc), information retrieval (ranking, search, etc), xml, data compression, data streaming, and any other non-commercial activity. For more information, please refer to the link http://www.di.unipi.it/~gulli/AG_corpus_of_news_articles.html . The AG's news topic classification dataset is constructed by Xiang Zhang (xiang.zhang@nyu.edu) from the dataset above. It is used as a text classification benchmark in the following paper: Xiang Zhang, Junbo Zhao, Yann LeCun. Character-level Convolutional Networks for Text Classification. Advances in Neural Information Processing Systems 28 (NIPS 2015). DESCRIPTION The AG's news topic classification dataset is constructed by choosing 4 largest classes from the original corpus. Each class contains 30,000 training samples and 1,900 testing samples. The total number of training samples is 120,000 and testing 7,600. The file classes.txt contains a list of classes corresponding to each label. The files train.csv and test.csv contain all the training samples as comma-sparated values. There are 3 columns in them, corresponding to class index (1 to 4), title and description. The title and description are escaped using double quotes ("), and any internal double quote is escaped by 2 double quotes (""). New lines are escaped by a backslash followed with an "n" character, that is "\n".
### 军事数据集图像分类算法 对于军事数据集中图像的分类,可以采用多种机器学习和深度学习方法来实现高效准确的结果。考虑到军事应用场景的独特性和复杂性,模型不仅需要具备高度准确性,还需要能够处理低质量或模糊的数据。 #### 卷积神经网络 (CNN) 卷积神经网络是一种特别适合于图像识别任务的深层架构,在许多公开竞赛中取得了优异的成绩[^1]。通过多层卷积核的应用,CNN 能够自动从原始像素输入中提取复杂的特征表示形式,从而有效地区分不同的物体类别。针对特定类型的军事装备或其他目标,训练定制化的 CNN 可以为该领域提供强大的解决方案。 ```python import tensorflow as tf from tensorflow.keras import layers, models def create_cnn_model(input_shape=(None, None, 3)): model = models.Sequential() # 添加卷积层与池化层组合 model.add(layers.Conv2D(32, (3, 3), activation='relu', input_shape=input_shape)) model.add(layers.MaxPooling2D((2, 2))) model.add(layers.Conv2D(64, (3, 3), activation='relu')) model.add(layers.MaxPooling2D((2, 2))) model.add(layers.Flatten()) model.add(layers.Dense(64, activation='relu')) model.add(layers.Dense(num_classes, activation='softmax')) return model ``` #### 改进策略 为了进一步提升性能,还可以考虑引入迁移学习、数据增强以及集成学习等技术: - **迁移学习**:利用预训练好的大型通用模型(如 ImageNet 上训练得到),并在此基础上微调适应新的军事实验室环境下的专用数据集。 - **数据增强**:通过对现有样本施加随机变换(旋转、缩放、裁剪等)生成更多样化的训练实例,有助于提高泛化能力。 - **集成学习**:结合多个弱分类器形成强分类效果,比如 Bagging 和 Boosting 方法都可以用来构建更稳健可靠的预测系统。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值