NLP相关竞赛

NLP 专栏收录该内容
11 篇文章 1 订阅

NLP相关竞赛

列举了一些NLP相关的评测和比赛,欢迎补充

文章目录

会议

NLPCC ( Natural Language Processing & Chinese Computing) 2012

http://tcci.ccf.org.cn/conference/2012/pages/page04_eva.html
任务描述

  • 面向中文微博的情感分析
    评测对象是面向中文微博的情感分析中的核心技术,包括情感句识别、情感倾向性分析和情感要素抽取。

  • 中文词汇语义关系抽取
    评测对象是中文词义关系(包括同义关系、上下位关系)抽取中的核心技术。

NLPCC 2013

http://tcci.ccf.org.cn/conference/2013/index.html

任务简介

  • 中文微博观点要素抽取
    要求识别出微博观点句中的评价对象与极性,与NLP&CC 2012的微博情感分析之情感要素抽取任务相衔接。
  • 中文微博情绪识别
    要求识别出整条微博所表达的情绪,不是简单的褒贬分类,而是涉及到多个细粒度情绪类别(例如悲伤、忧愁、快乐、兴奋等),属于细粒度的情感分类问题。
  • 跨语言情感分类
    给定已标注倾向性的英文评论数据和英文情感词典,要求只利用给出的英文情感资源进行中文评论的情感倾向分类。该任务注重考察多语言环境下情感资源的迁移能力,有助于解决不同语言中情感资源分布的不均衡问题。
  • 中文微博实体链接
    要求将微博中出现的实体与百科条目相链接,是对TAC KBP任务的延伸,有助于利用社交媒体内容进行知识库的构建与扩展。
  • 中文语义依存关系分析
    给定已经分词的中文句子和预先定义的语义依存关系集合,要求给出句子中词语之间的语义依存关系。该任务考察句子中词语之间语义依存分析技术,有助于理解自然语言,促进以此为基础的文本理解应用。

NLPCC 2014

http://tcci.ccf.org.cn/conference/2014/pages/page04_dg.html
There are 6 tasks in this evaluation.

  • Emotion Analysis in Chinese Weibo Texts
  • Sentiment Classification with Deep Learning
  • Chinese Entity Linking
  • Cross-Lingual Knowledge Linking
  • Large Scal English Question Answering
  • Large Scal Chinese News Categorization

NLPCC 2015

http://tcci.ccf.org.cn/conference/2015/
任务概述
今年的NLPCC会议共有四项共同任务:

  • Chinese Word Segmentation and POS Tagging for Weibo Text
    此任务旨在评估微博文本中文分词和POS标记的技巧。这项任务集中在中文处理的两个基本问题:分词和POS标记。
  • Open Domain Question Answering
    此任务旨在评估中英文的开放域QA技术。
  • Entity Recognition and Linking in Chinese Search Queries
    此任务旨在评估将短搜索查询中的命名实体与参考中文知识库中的实体对齐的技术的当前进展。
  • Weibo-Oriented Chinese News Summarization
    此任务旨在评估用于在社交媒体网站(如新浪微博)上发布和传播新闻的单一文档摘要技术。

NLPCC 2016

任务概述
There are five shared tasks in this year’s NLPCC conference and the details of each task can be found in the document of task guidelines. Here we give a very brief overview of each task.

  • Chinese Word Segmentation for Weibo Text
    This task aims to evaluate the techniques of Chinese word segmentation for Weibo texts. Since there exist different annotation criterions to segment Chinese words, these criterions should be considered to judge the performance of a word segmenter. Different with the traditional single evaluation measure for word segmentation, this task introduces a new criterion to evaluate the multi-granularity word segmentation.

  • Open Domain Question Answering
    This task aims to evaluate the open domain knowledge-based and document-based QA techniques in Chinese language.

  • Chinese Word Similarity Measurement
    This task provides a dataset of Chinese word similarity to evaluate and compare different semantic measures of lexical similarity, including 500 word pairs and their similarity scores.

  • Stance Detection in Chinese Microblogs
    This task is designed to evaluate stance detection techniques for Weibo texts, and stance detection aims to automatically determine whether the author of a Weibo text is in favor of the given target, against the given target, or neither. Noted here that the given target may not be present in the Weibo text. For example, for the given target of “全面放开二孩政策/Full liberalization of two-child policy”, in the Weibo text,“我们都是可以随便安排的机器么?/Are all of us easily arranged machines?”, the author’s stance is against the given target. This means that stance detection is different from traditional target (aspect)-dependent sentiment analysis.

  • Sports News Generation from Live Webcast scripts
    This task aims to evaluate document summarization techniques for producing Chinese sports news articles from live webcast scripts. The live webcast scripts are usually very long and the task is considered a special case of single document summarization.

NLPCC 2017

http://tcci.ccf.org.cn/conference/2017/index.php

There are six shared tasks in this year’s NLPCC conference and the details of each task can be found in the document of task guidelines. Here we give a very brief overview of each task.

  • Chinese Word Semantic Relation Classification
    This task is focused on lexical semantics and it aims to evaluate the techniques of automatic classification of Chinese word semantic relations. Given a pair of Chinese words, it is required to classify the word pair into one of the following semantic relations: synonym (e.g., 计算机-电脑), antonym (e.g., 上涨-下降), hyponym (e.g., 食材-红薯), meronymy (e.g., 汽车-发动机) and person-affiliation relation (e.g., 医生-医院).

  • News Headline Categorization
    This task aims to evaluate the automatic classification techniques for very short texts, i.e., Chinese news headlines. Each news headline (i.e., news title) is required to be classified into one or more predefined categories.

  • Single Document Summarization
    This task provides a dataset for single document summarization of Chinese news articles, to evaluate and compare different document summarization techniques.

  • Emotional Conversation Generation
    As a vital part of human intelligence, emotional intelligence is defined as the ability to perceive, integrate, understand, and regulate emotions. Though a variety of models have been proposed for conversation generation from large-scale social data, it is still quite challenging (and yet to be addressed) to generate emotional responses. In this shared task, participants are expected to generate Chinese responses that are not only appropriate in content but also adequate in emotion, which is quite important for building an empathic chatting machine. For instance, if user says “My cat died yesterday”, the most appropriate response may be “It’s so sad, so sorry to hear that”to express sadness, but also could be “Bad things always happen, I hope you will be happy soon” to express comfort.

  • Open Domain Question Answering
    Open domain QA evaluation includes three tasks, knowledge-based question answering (KBQA), document-based question answering (DBQA), and table-based question answering (TBQA). The task of KBQA is to answer Chinese factoid questions based on a given structured knowledge base. The task of DBQA is to answer Chinese questions by selecting one or multiple sentences from a given document as answers. In addition to the training and test sets released in NLPCC-ICCPOL 2016, this year, we will provide two new test sets for the above two tasks respectively. The task of TBQA is a totally new QA task, which aims to answer English questions by retrieving one or more tables from a table collection as answers. We hope our datasets and evaluation can promote the development of QA research in China.

  • Social Media User Modeling
    User modeling on social media is essential for business decisions, such as user segmentation and targeting advertisement. Since user behavioral data on social media is heterogeneous, it’s still challenging to effectively leverage the heterogeneous information for user modeling. This task provides a social media dataset including the following heterogeneous information: users’ profiles (such as gender, age), social ties (following relationship), users’ tags, users’ published tweets, and users’ location visits. The user modeling task include the following two subtasks: 1) Interested Location Prediction, given users’ some historical location visits and other provided information, predict what locations a user is interested to visit in the future. 2) User Profiling, given users’ other information expect profiles, predict each user’s profile information.

NLPCC 2018

http://tcci.ccf.org.cn/conference/2018/cfpt.php

There are eight shared tasks in this year’s NLPCC conference and the detailed description of each task can be found in the task guidelines to be released. Here we only give a brief overview of each task.

  • Task 1 - Emotion Detection in Code-Switching Text
    This task aims to evaluate the techniques of automatic classification of emotion in code-switching text. Different from monolingual text, code-switching text contain more than one language, and the emotion can be expressed by either monolingual (e.g., 这个show真好看, 今天感觉很happy) or bilingual form (e.g., 嗓子hold不住了啊). Hence, the challenges are: 1) how to integrate both monolingual and bilingual forms to detect emotion, and 2) how to bridge the gap to between two languages.

  • Task 2 - Grammatical Error Correction
    With the expanding influence of China, learning Mandarin Chinese has grown in popularity around the world. Whereas the study of second language learning has started years ago, the specific research for CSL (Chinese as a Second Language) still has a long way to go. NLPCC 2018 Task 2 will be grammatical error correction for Chinese. The goal of the task is to develop techniques to automatically detect and correct errors made by writers of CSL. We will provide large-scale Chinese texts written by non-native speakers in which grammatical errors have been annotated and corrected by native speakers. Blind test data will be used to evaluate the outputs of the participating teams using a common scoring software and evaluation metric.

  • Task 3 - Single Document Summarization
    This task provides a dataset for single document summarization of Chinese news articles, to evaluate and compare different document summarization techniques.

  • Task 4 - Spoken Language Understanding in Task-Oriented Dialogue Systems
    This task aims to evaluate the Spoken Language Understanding (SLU), which includes intent classification and slot filling. We will provide a dataset generated from a commercial task-oriented dialogue system, with the noisy transcripts automatically recognized from spoken utterances and the corrected SLU results.

  • Task 5 - Multi-Turn Human-Computer Conversations
    In this year’s NLPCC intelligent conversation task, we focus on how to utilize contexts to conduct multi-turn human-computer conversations. The task contains two parts: (1) response retrieval, which means to find the original response given a particular query given the contexts and (2) response generation, which means a new utterance will be generated to respond the query. Both sub-tasks will be based on human-to-human conversation data in Chinese.

  • Task 6 - Automatic Tagging of Zhihu Questions
    The task aims to tag questions in Zhihu with relevant tags from a collection of predefined ones. Accurate tags can benefit several downstream applications such as recommendation and search of Zhihu questions.

  • Task 7 - Open Domain Question Answering
    In this year’s NLPCC open domain QA share task, we focus on KNOWLEDGE and propose three sub-tasks, including (a) knowledge-based question answering (KBQA), (b) knowledge-based question generation (KBQG), and © knowledge-based question understanding (KBQU). The task of KBQA is to answer natural language questions based on a given knowledge base. The task of KBQG is to generate natural language questions based on given knowledge base triples. The task of KBQU is to transform natural language questions into their corresponding logical forms. The first two sub-tasks are in Chinese, while the last sub-task is in English.

  • Task 8 - User Profiling and Recommendation
    In this year’s NLPCC user modeling share task, we focus on two sub-tasks, including (a) user tags prediction (UTP)), and (b) user following recommendation (UFR)). The task of UTP is to predict which tags are related to a user. The task of UFR is to recommend users a user would like to follow. The two sub-tasks use social media data in China.

SIGHAN (Special Interest Group for Chinese Language Processing of the Association for Computational Linguistics)

http://sighan.cs.uchicago.edu/bakeoff2005/

中文分词评测

商业比赛

AI当法官

https://www.datafountain.cn/competitions/277/details

赛题背景
伴随着人工智能技术的发展以及司法大数据应用的广泛开展,业务人员希望通过机器阅读大量的案件事实,自动给出该案件中责任人所处罚金的范围,以提高办案效率。同时,也有利于公民根据相关案情事实快速了解可能面临的处罚。

举个例子,如有下面的案件事实描述:

 “被告人高某明知罂粟为毒品,于2012年11月份将捡拾的罂粟籽种植在其院内。2013年4月8日,公安机关民警在巡逻中发现被告人高某家中种植的罂粟后遂将罂粟植株予以铲除、扣押。经现场清点,高某种植的罂粟植株共计622株。“

依照《中华人民共和国刑法》第三百五十一条、第六十七条、第七十二条、第七十三条之规定,判决如下:被告人高某犯非法种植毒品原植物罪,判处拘役四个月,缓刑六个月,并处罚金二千元。
本赛题将提供大量的去隐私话的案情事实作为训练数据给选手,选手通过模型识别发现案件事实描述与罚金范围和相关法律条文之间的关联,从而实现对新案件的罚金额度范围和对应的相关法律条文进行预测。
数据格式
比赛中提供的训练数据为多行文本,每一行分为四列,使用\t分割,第一列为文档ID, 第二列为案件事实描述,第三列为罚金额度类别,第四列为对应的法律条文编号序列,其中法律条文编号序列是有”,”号分割。
数据样例如下,以表格形式进行表示:
1
被告人高某明知罂粟为毒品,于2012年11月份将捡拾的罂粟籽种植在其院内。2013年4月8日,公安机关民警在巡逻中发现被告人高某家中种植的罂粟后遂将罂粟植株予以铲除、扣押。经现场清点,高某种植的罂粟植株共计622株。
1
351,67,72,73

另外会提供训练数据中相关的法律条文内容,所有条文按编号排列。每条法律条文内容占一行。
注:罚金金额与其类别标签的对应关系如下:
金额范围(元) 类别标签
(,1000] 1
(1000,2000] 2
(2000, 3000] 3
(3000,4000] 4
(4000, 5000] 5
(5000, 10000] 6
(10000,50w] 7
(50w, ) 8

数据规模
初赛数据规模:训练数据规模4w,A榜测试数据规模1w,B榜测试数据2w
复赛数据规模:训练数据规模12w,A榜测试数据规模3w, B榜测试数据6w

360搜索-AlphaGo之后“人机大战”Round 2 ——机器写作与人类写作的巅峰对决

https://www.datafountain.cn/competitions/276/details
赛题背景

如果说AlphaGo和人类棋手的对决拉响了“人机大战”的序曲,在人类更为通识的写作领域,即将上演更为精彩的机器写作和人类写作的对决。人类拥有数万年的书写历史,人类写作蕴藏无穷的信息、情感和思想。但随着深度学习、自然语言处理等人工智能技术发展,机器写作在语言组织、语法和逻辑处理方面几乎可以接近人类水平。360搜索智能写作助手也在此背景下应运而生。

本次CCF大数据和人工智能大赛上,360搜索智能写作助手(机器写作)和人类写作将狭路相逢,如何辨别出一篇文章是通过庞大数据算法训练出来的机器写作的,还是浸染漫长书写历史的人类创作的?我们拭目以待!

本次赛题任务:挑战者能够设计出优良的算法模型从海量的文章中区分出文章是机器写作还是人类写作。

互联网金融平台用户评价观点提取

https://www.datafountain.cn/competitions/309/details
赛题背景
近年来互联网金融野蛮发展,大大小小的网贷、理财平台如雨后春笋般涌现,面对新鲜事物普通投资者经不住平台的广告诱惑,纷纷投入到互联网金融的热潮中。但平台有良莠,特别是国家监管日趋规范和严厉,导致一大批问题平台纷纷关闭、跑路。但对于普通投资者来说很难来判断一个平台的好坏,很多人借助于网络上对于该平台的一些用户评论的信息来甄别平台的优劣,面对海量的评论信息人为逐条来看,既费时又费力。如果能够借助机器学习的手段从海量的用户评论数据中提取出用户对于这个平台的评价(或者说印象),对投资者来说就很有帮助了。

赛题任务
举办方提供互联网金融平台用户评论数据及相关新闻数据,参赛者也可自行爬取更多的数据进行辅助分析。参赛者根据用户评论数据进行分析,提取用户对于平台的评价或印象(如:利率高、提现速度慢、客服态度好、活动多、安全有保证、不讲信用等),要求相同或相似评价进行聚合处理(如:利率高、收益率高等认为属于相同或相似评价)。同时,分析新闻事件对用户评论观点随时间变化的影响。

数据说明
评论数据来源于爬取的互联网金融平台评论数据,共14万条,每一条包括:评论ID,评论内容,评论时间,平台名称,用户名称等。新闻数据来源于网页、微信、BBS、手机app、论坛、电子报等。每条新闻内容包含文章ID,新闻标题,新闻内容,发布时间,和新闻发布平台名称。

作品要求
要求参赛者将评论分析的模型、算法、结果及相关重要细节以PDF文档的方式进行提交。如果有额外爬取的数据,要求参赛者上传其爬取的数据及相关数据的说明。

评分方式
本题目为开放式题目,请参赛者将分析结果以合理的方式展现,届时会有相关专家对其数据是否丰富可靠模型是否有效,内容是否丰富,结果是否合理,以及分析方法是否新颖性各方面进行评测。

景区口碑评价分值预测

https://www.datafountain.cn/competitions/283/details
赛题背景
2017年中国旅游经济继续保持良好运行态势,前三季度,国内旅游人数和收入分别比上年同期增长13.17%和16.55%。出境旅游市场增长稳定,入境市场增长近期虽有所放缓,但仍处于全面恢复增长通道,全年国际旅游市场有望保持平稳发展。预计全年我国国内和入境旅游人数超过51亿人次,旅游总收入超过5.3万亿元,旅游对国民经济和社会就业的综合贡献都将超过10%,全面实现年初制定的各项目标。越来越多的人选择旅游来放松心情,缓解压力,一个好的目的地也许是美好旅行最基础保障,看看旅游评论,也成了旅行前的必做功课。

赛题任务
随着移动互联网时代的到来,个人在社会化媒体贡献着大量的内容,对旅游景区发声反馈的渠道越来越多,但是发声的便利性跟渠道的多样性也带来了一些问题,商家完整全面聆听客户反馈的难度也增大了。

本赛题通过获取网友反馈的评论文本跟评论分值做训练数据,期望通过机器学习得出评论文本与评论分值之间的关系。

本赛题任务要求必须使用本赛题提供的数据作为训练集,不得额外扩展训练集。允许使用第三方提供的数据字典文件,但字典内容不能与比赛文本一致。
数据背景
“口碑评价”是反映一个旅游景点受欢迎程度的很直接的参考意见,此类评价分散在各个媒体渠道中,想要了解景区的大众口碑、服务质量,需要逐条的去阅读各类评价,因数据量巨大很难准确评估景区在大众心里的印象和口碑。

本赛题数据来源为互联网上用户对景区的评价以及口碑得分值,希望参赛选手据此尝试进行旅游景区评价分值预测。

文件清单和使用说明

train.csv —— 训练数据集,用于训练模型试用
evaluation_public.csv —— 评测数据集
example.csv —— 参赛者提交样例

train.csv格式说明

Id —— 唯一ID,代表一条数据记录
discuss —— 网友在某渠道上发布的评论文本内容
Score —— 网友给出的评论分值

大数据精准营销中搜狗用户画像挖掘

https://www.datafountain.cn/competitions/239/details/rule
赛题背景
"物以类聚,人以群分"这句古语不仅揭示了物与人的自组织趋向,更隐含了“聚类”和“人群”之间的内在联系。在现代数字广告投放系统中,以物拟人,以物窥人,才是比任何大数据都要更大的前提。如何把广告投放给需要的人,是大数据在精准营销中最核心的问题,如何越来越精确的挖掘人群属性,也一直是技术上的天花板。对于企业主来说,了解自身产品的受众有助于进行产品定位,并设计营销解决方案。本题目以精准广告中一个具体问题为例,希望发掘到数据挖掘的优秀人才。
赛题任务
本题目提供用户历史一个月的查询词与用户的人口属性标签(包括性别、年龄、学历)做为训练数据,要求参赛人员通过机器学习、数据挖掘技术构建分类算法来对新增用户的人口属性进行判定。

基于机构实体的智能摘要和风险等级识别

https://www.datafountain.cn/competitions/269/details
赛题背景

大数据浪潮正席卷全球,基于大数据的机器革命,正在深刻的改变着每个人的生活。近期,《新一代人工智能发展规划》发布,自然语言处理技术获得重点提及。《规划》要求,重点突破自然语言的语法逻辑、字符概念表征和深度语义分析的核心技术,推进人类与机器的有效沟通和自由交互,实现多风格多语言多领域的自然语言智能理解和自动生成。

法海风控作为全球领先的数据服务提供商,创立之初就将大数据和人工智能融入公司血液,通过大数据及人工智能助力金融机构更好的控制风险,推动社会诚信的发展。

本赛题源于法海风控的内部项目,是客户的明确需求,具备实际应用价值与现实意义。

任务描述
对数据集中的每条记录,提取出正文中的主要机构实体,并生成智能摘要。

举例如下,正文内容:

某某网1月19日文:1月19日消息,北京知识产权法院就搜狐视频诉北京暴风科技股份有限公司(以下简称“暴风公司”)网络剧作品《高品格单恋》信息网络传播权侵权二审一案,做出终审判决,搜狐视频终审胜诉,认定暴风公司主观恶意程度较高,构成直接故意侵权,判决暴风公司赔偿搜狐视频经济损失及合理费用共计125,000元。

提取机构实体及生成智能文摘,内容如下表所示:

机构实体摘要(简明扼要,尽量不超过100字)关键词风险等级
搜狐视频搜狐视频终审胜诉暴风公司终审-胜诉正向
暴风公司暴风公司侵权,赔偿搜索视频125,000元侵权-赔偿-125,000元负向
北京知识产权法院北京知识产权法院做出终审判决终审-判决中性

风险等级分三类:正向、负向、中性;疑似经营风险、虚假宣传、司法风险等都判定为负向;新产品问世、通过质量认证等都判定为正向;可参考数据集中的正负面词汇。

注:同一篇新闻中,不同的机构实体,对应的关键词、风险等级和摘要可能不同。

基于主题的文本情感分析

https://www.datafountain.cn/competitions/268/details

赛题背景

近年来,文本情感分析技术在网络营销、企业舆情监控、政府舆论监控等扮演越来越重要的角色。鉴于主题模型在文本挖掘领域的优势,基于主题的文本情感分析技术也成为人们关注的热点,其主要任务是通过挖掘用户评论所蕴含的主题、以及对这些主题的情感偏好,来提高文本情感分析的性能。

以网上电商购物评论为例,原始的主题模型主要针对篇幅较大的文档或者评论句子的集合,学习到的主题主要针对整个产品品牌;而现实情形是,用户评论大多针围绕产品的某些特征或内容主题展开(如口味、服务、环境、性价比、交通、快递、内存、电池续航能力、原料、保质期等等,这说明相比于对产品的整体评分, 用户往往更关心产品特征),而且评论文本往往较短。

任务描述

本次大赛提供脱敏后的电商评论数据。参赛队伍需要通过数据挖掘的技术和机器学习的算法,根据语句中的主题特征和情感信息来分析用户对这些主题的偏好,并以<主题,情感词>序对作为输出。可能不同。

健康医疗问答系统构建与实现

https://www.datafountain.cn/competitions/263/details/rule
任务说明:
题目从辅助诊疗的角度出发,提出了健康医疗问答系统构建与实现,具体内容如下:

1.参赛者能够基于给定的有关健康医疗的问答数据,通过导引问答的方式,并利用自然语言处理技术、文本挖掘和深度学习等技术,构建一套健康医疗问答系统。

2.本系统需提供多个可能性的问题所对应的疾病分类及其多个答案排序,并提供最佳的问题分类和答案。

3.需要提供构建思路,过程,程序代码,效果演示,评测结果等。

数据来源:
参赛者自行提供,并附上数据说明。

目前,中国正面临一系列健康风险:人口老龄化加剧、慢病患者数量巨大、老年病“年轻化”、亚健康常态化、医学敏感人群上升、心理问题严重等。与此同时,传统的医疗行业存在诸多痛点:医院资源配置不合理,诊疗效率低下;医患需求不匹配,医患纠纷频发;用户看病难、看病贵。因此,个人、医疗机构以及相关企业对健康医疗与大数据的需求迫切,合理利用健康医疗大数据,使得医疗资源能够充分发挥其优势,从而降低国家所面临的健康风险。

针对以上所面临的健康风险以及对于健康医疗大数据的需求,题目从辅助诊疗的角度出发,提出了健康医疗问答系统构建与实现,具体内容如下:

1.参赛者能够基于给定的有关健康医疗的问答数据,通过导引问答的方式,并利用自然语言处理技术、文本挖掘和深度学习等技术,构建一套健康医疗问答系统。

2.本系统需提供多个可能性的问题所对应的疾病分类及其多个答案排序,并提供最佳的问题分类和答案。

3.需要提供构建思路,过程,程序代码,效果演示,评测结果等。

出题单位简介
易联众信息技术股份有限公司创立于2000年,是国内民生信息服务行业首个上市公司(股票代码300096)。 公司拥有全国唯一“从软件平台、硬件实施、制卡发卡及数据运维”完整的社保信息化建设资质、认证及经验,是中国最大的社保及医保业务运营商。公司拥有250项著作权、30余项专利,国家级、省级以及市级的重点项目40个;并实现了全国第 1 个实现劳动和社保数据库合二为一,真正实现劳动和社保系统的融合;全国第 1 个实现医院看病结算一卡通;全国第 1 个实现全省医保联网、异地就诊实时结算;研制全国第 1 张金融社保 IC 卡,促进社保卡行业标准提升;研发全国第 1 个民生自助终端应用,丰富民生信息服务便民渠道;打造全国第 1 个民生信息服务云计算平台,以新技术促进民生信息服务再发展。

基于视角的领域情感分析

https://www.datafountain.cn/competitions/237/details
赛题背景
随着网络舆情分析在产品中重要性的增加,对数据情感判断的需求以及对文本中带视角的判断的需求也越来越高。文档类型多种多样,文章中描述的情感也具有多样性,站在不同的视角,文章展现的情感倾向也不相同。同时,来源于互联网上的UGC(用户产生内容)文章也随着用户语言习惯的不同而多种多样,给情感分析带来了一定的挑战。本题目立意于基于视角的领域情感分析,希望能够吸引对具体算法和技术感兴趣的参赛者,在全国范围内发现和培养大数据及自然语言处理领域的人才。

赛题任务
下文首先介绍“视角”的定义,而后对“视角抽取”与“基于视角的情感分析”任务进行详细介绍:

视角定义:在情感分析这一任务中,对于同一个文档或句子,不同的数据使用者去分析,将会有不同的情感倾向。同时,从文中不同内容去分析,也有可能会得到不一样的情感。

例如:
在“A车在第三季度一举超过B车成为销量冠军”这样一句话中,如果分析者站在A车的角度去考虑,这句话就是正面的,但是如果分析者在B车的角度,则丢失了销量冠军这样一则消息是负面的。而在本句话中,“A车”和“B车”则是两个不同的情感视角。

视角泛指某一类的思考角度,可以理解为数据使用者角度,亦可以理解为文本中某些方面,在本赛题中,为了简化《基于视角的领域情感分析》这一任务,我们将视角进行具体化——特指文本中出现的汽车品牌词语(如:“上汽大众”、“美国通用”、“速派”、“POLO”等)。

视角抽取:又称为“视角识别”。顾名思义,这一任务意在从文本中抽取(识别)出可以描述视角的词语。由于在本次任务中,视角特指汽车品牌词,故这一步的任务需要参赛队伍抽取(识别)出文本中的汽车品牌词(或别名)。

例如:

“考虑到终端市场的情况,我们本次选取了全新迈腾全系的次顶配车型和帕萨特2.0T排量的顶配车型来进行对比”一句话中,参赛队伍应抽取出“迈腾”和“帕萨特”两个视角。
“最终我们放弃了迈腾,把小帕开回了家!”一句中,参赛队伍应抽取出“迈腾”和“小帕”两个视角。在这里“小帕”是“帕萨特”的别名。
在本次评测中,我们将给出一个汽车品牌词语集合来供参赛队伍参考。这个品牌词集合包含了测试语料中出现的大部分汽车品牌词及少部分未出现的汽车品牌词。为了验证参赛队伍“视角抽取”方法的鲁棒性,会有评测语料中的部分汽车品牌词并未出现在这一集合中的现象。

基于视角的情感分析:给定一个句子,如果该句子中包含“视角”词语,则应针对这一视角进行情感分析;如果句子中包含多个“视角”词语,则应对不同的视角进行单独的情感分析;如果句子中不包含视角,则不做情感判别处理。

汽车行业用户观点主题及情感识别

https://www.datafountain.cn/competitions/268/details
赛题背景
随着政府对新能源汽车的大力扶植以及智能联网汽车兴起都预示着未来几年汽车行业的多元化发展及转变。汽车厂商需要了解自身产品是否能够满足消费者的需求,但传统的调研手段因为样本量小、效率低等缺陷已经无法满足当前快速发展的市场环境。因此,汽车厂商需要一种快速、准确的方式来了解消费者需求。

赛题任务
本赛题提供一部分网络中公开的用户对汽车的相关内容文本数据作为训练集,训练集数据已由人工进行分类并进行标记,参赛队伍需要对文本内容中的讨论主题和情感信息来分析评论用户对所讨论主题的偏好。讨论主题可以从文本中匹配,也可能需要根据上下文提炼。

数据背景
数据为用户在汽车论坛中对汽车相关内容的讨论或评价。

数据说明
(1)训练数据: 训练数据为CSV格式,以英文半角逗号分隔,首行为表头,字段说明如下:
Alt text
(2)测试数据:测试数据为CSV格式,首行为表头,字段为:
Alt text

“AIIA”杯-国家电网-电力专业领域词汇挖掘

https://www.datafountain.cn/competitions/320/details
赛题背景
词语是开展文本处理的基础,目前电力行业还没有建立较全的电力主题词典。随着对电力文本语义理解需求的增多,构建电力行业主题词典需求越来越迫切。电力行业积累了大量的文本数据,这些数据包括电力科技论文、项目报告、电力规程、电力操作手册等。基于这些数据,利用自然语言处理技术开展电力专业领域词汇发现研究,进而构建电力主题词典,对于后续开展电力行业文本理解和挖掘具有重要的意义。

赛题任务
对给定的电力文本数据,利用专业领域词发现算法来挖掘电力专业词汇。参赛者需要根据提供的电力语料,对比通用语料(建议采用维基百科),开发专业词发现程序,寻找出专属于电力领域的词汇。电力语料格式为一个Txt文本集,该文本包含了10000篇电力科技论文(已打乱顺序)。

垃圾短信基于文本内容识别

https://www.datafountain.cn/competitions/227/details
大赛介绍
题目目标:基于短信文本内容,准确地、完整地识别出垃圾短信、正常短信。用准确率、查全率、效率(每秒处理条数)衡量。考虑到现实环境中数据量巨大,请同时考虑算法单机实现版和并行实现版。
1) 文本分析可采用开源分词器(也可自己完善);
2) 算法不限于单一算法,可以是组合算法;
3) 开发语言不限,java,python,R等;
4) 算法评估指标:查全率、准确率、性能(效率:每秒处理的记录数)
5) 算法准确率和查全率最终用一个分值F表示,考虑到垃圾短信识别对于准确率要求比较高,最终计算公式如下:
Alt text
全率最终用一个分值F表示,考虑到垃圾短信识别对于准确率要求比较高,最终计算公式如下:
Alt text
赛题背景
垃圾短信已日益成为困扰运营商和手机用户的难题,严重影响到人们正常生活、侵害到运营商的社会形象以及危害着社会稳定。而不法分子运用科技手段不断更新垃圾短信形式且传播途径非常广泛,传统的基于策略、关键词等过滤的效果有限,很多垃圾短信“逃脱”过滤,继续到达手机终端。如何结合机器学习算法、大数据分析挖掘来智能地识别垃圾短信及其变种是当下的一个热门课题。

赛题任务
对测试集中每条记录的短信文本进行文本相关分析,包括文本的预处理(对特殊符号、数字、繁体简体等的处理)、文本分词、文本分类学习、预测等。输出每条短信的判定结果:0代表正常短信,1代表垃圾短信。

ATEC学习赛:NLP之问题相似度计算

https://dc.cloud.alipay.com/index?click_from=MAIL&_bdType=acafbbbiahdahhadhiih#/topic/intro?id=8
赛题背景
以TechFin为基础的普惠金融,一个重要目标就是给广大用户提供高效和个性化的客户服务体验。以人工智能技术为核心的智能客服在提升用户体验方面扮演了重要角色。人工智能技术帮助客服人员提供更加高效的服务,在某些场合下甚至能直接向用户提供准确和个性化的客户服务。在经济和技术发展日新月异的今天,客服以其普惠的商业价值和研究价值吸引了大量的专家学者,在学术界得到了广泛的研究。

智能客服的本质,就是充分理解用户的意图,在知识体系中精准地找到与之相匹配的内容,回答用户问题或提供解决方案。问题相似度计算,是贯穿智能客服离线、在线和运营等几乎所有环节最核心的技术,同时也是自然语言理解中最核心的问题之一,广泛应用于搜索、推荐、对话等领域。在问题相似度计算上的突破,能够促进整个NLP领域的蓬勃发展,推动通用人工智能的大跨步前进,给人类社会带来巨大的经济价值。

2015年开始,蚂蚁金服就一直专注于利用人工智能技术来打造智能客服体系。通过机器学习、深度学习、自然语言处理等技术,实现自助、95188热线、服务工作台等服务系统的智能升级。以我的客服(自助)为例,蚂蚁金服的智能客服每天可以处理700万左右的用户请求,自助占比达97.3%。这背后的核心技术就是对用户意图的精准识别,对问题相似度计算方法的不断探索、升级优化。

随着蚂蚁金服业务的快速发展、客服服务请求的每日俱增,加上用户描述上的多样性、口语化和省略习惯等,如何精准的判断用户意图、提供正确的答案或解决方案,变得越来越困难。在此背景下,我们结合蚂蚁金融大脑的应用现状,抽象出该赛题,跟大家一起探讨这一自然语言处理领域的基础问题,推动智能客服乃至整个人工智能技术的发展,理解用户的金融诉求,使得更多人能够享受到更加高效、便捷、优质体验的普惠金融服务。

1 、赛题任务描述

问题相似度计算,即给定客服里用户描述的两句话,用算法来判断是否表示了相同的语义。

示例:

  1. “花呗如何还款” --“花呗怎么还款”:同义问句

  2. “花呗如何还款” – “我怎么还我的花被呢”:同义问句

  3. “花呗分期后逾期了如何还款”-- “花呗分期后逾期了哪里还款”:非同义问句

对于例子a,比较简单的方法就可以判定同义;对于例子b,包含了错别字、同义词、词序变换等问题,两个句子乍一看并不类似,想正确判断比较有挑战;对于例子c,两句话很类似,仅仅有一处细微的差别 “如何”和“哪里”,就导致语义不一致。

2、数据

本次大赛所有数据均来自蚂蚁金服金融大脑的实际应用场景:

我们提供10万对的标注数据,作为训练数据,包括同义对和不同义对,可下载。数据集中每一行就是一条样例。格式如下:

行号\t句1\t句2\t标注,举例:1 花呗如何还款 花呗怎么还款 1

• 行号指当前问题对在训练集中的第几行;

• 句1和句2分别表示问题句对的两个句子;

• 标注指当前问题对的同义或不同义标注,同义为1,不同义为0。

评测数据集总共1万条。为保证大赛的公平公正、避免恶意的刷榜行为,该数据集不公开。大家通过提交评测代码和模型的方法完成预测、获取相应的排名。格式如下:

行号\t句1\t句2

初赛阶段,评测数据集会在评测系统一个特定的路径下面,由官方的平台系统调用选手提交的评测工具执行。

3、评测及评估指标

比赛选手在本地完成模型的训练调优,将评测代码和模型打包后,提交官方测评系统完成预测和排名更新。测评系统为标准Linux环境,内存8G,CPU4核,无网络访问权限。安装有python 2.7、java 8、tensorflow 1.5、jieba 0.39、pytorch 0.4.0、keras 2.1.6、gensim 3.4.0、pandas 0.22.0、sklearn 0.19.1、xgboost 0.71、lightgbm 2.1.1。 提交压缩包解压后,主目录下需包含脚本文件run.sh,该脚本以评测文件作为输入,评测结果作为输出(输出结果只有0和1),输出文件每行格式为“行号\t预测结果”,命令超时时间为30分钟,执行命令如下:

bash run.sh INPUT_PATH OUTPUT_PATH

预测结果为空或总行数不对,评测结果直接判为0。

本赛题评分以F1-score为准,得分相同时,参照accuracy排序。选手预测结果和真实标签进行比对,几个数值的定义先明确一下:

True Positive(TP)意思表示做出同义的判定,而且判定是正确的,TP的数值表示正确的同义判定的个数;

同理,False Positive(FP)数值表示错误的同义判定的个数;

依此,True Negative(TN)数值表示正确的不同义判定个数;

False Negative(FN)数值表示错误的不同义判定个数。

基于此,我们就可以计算出准确率(precision rate)、召回率(recall rate)和accuracy、F1-score:

precision rate = TP / (TP + FP)

recall rate = TP / (TP + FN)

accuracy = (TP + TN) / (TP + FP + TN + FN)

F1-score = 2 * precision rate * recall rate / (precision rate + recall rate)

"达观杯"文本智能处理挑战赛

http://suo.im/4YKozW
竞赛背景
2018年人工智能的发展在运算智能和感知智能已经取得了很大的突破和优于人类的表现。而在以理解人类语言为入口的认知智能上,目前达观数据自然语言处理技术已经可以实现文档自动解析、关键信息提取、文本分类审核、文本智能纠错等一定基础性的文字处理工作,并在各行各业得到充分应用。

自然语言处理一直是人工智能领域的重要话题,而人类语言的复杂性也给 NLP 布下了重重困难等待解决。长文本的智能解析就是颇具挑战性的任务,如何从纷繁多变、信息量庞杂的冗长文本中获取关键信息,一直是文本领域难题。随着深度学习的热潮来临,有许多新方法来到了 NLP 领域,给相关任务带来了更多优秀成果,也给大家带来了更多应用和想象的空间。

此次比赛,达观数据提供了一批长文本数据和分类信息,希望选手动用自己的智慧,结合当下最先进的NLP和人工智能技术,深入分析文本内在结构和语义信息,构建文本分类模型,实现精准分类。未来文本自动化处理的技术突破和应用落地需要人工智能从业者和爱好者的共同努力,相信文本智能处理技术因为你的算法,变得更加智能!
任务
建立模型通过长文本数据正文(article),预测文本对应的类别(class)
数据
*注 : 报名参赛或加入队伍后,可获取数据下载权限。
数据包含2个csv文件:

train_set.csv:此数据集用于训练模型,每一行对应一篇文章。文章分别在“字”和“词”的级别上做了脱敏处理。共有四列:
第一列是文章的索引(id),第二列是文章正文在“字”级别上的表示,即字符相隔正文(article);第三列是在“词”级别上的表示,即词语相隔正文(word_seg);第四列是这篇文章的标注(class)。
注:每一个数字对应一个“字”,或“词”,或“标点符号”。“字”的编号与“词”的编号是独立的!

test_set.csv:此数据用于测试。数据格式同train_set.csv,但不包含class。
注:test_set与train_test中文章id的编号是独立的。

观点型问题阅读理解(AI challenger)

https://challenger.ai/competition/oqmrc2018
赛题简介
机器阅读理解涉及信息检索、文本匹配、语言理解、语义推理等不同层次的技术,对于复杂问题的处理甚至需要结合世界知识与常识知识,极具挑战。为了进一步推动机器阅读理解领域的技术发展,为研究者提供学术交流和模型评测的基准,本次竞赛将重点针对阅读理解中较为复杂的,需要利用整篇文章中多个句子的信息进行综合才能得到正确答案的观点型问题开展评测。本次竞赛将利用准确率进行评分,作为主要评价指标。组委会将通过客观指标,并结合答辩表现,综合评估参赛者的算法模型。
赛题描述
简介
机器阅读理解是指让计算机阅读文本,随后让计算机解答与文中信息相关的问题。本次竞赛将重点针对阅读理解中较为复杂的,需要利用整篇文章中多个句子的信息进行综合才能得到正确答案的观点型问题。
数据说明
每条数据为<问题,篇章,候选答案> 三元组组成

每个问题对应一个篇章(500字以内),以及包含正确答案的三个候选答案

问题:真实用户自然语言问题,从搜索日志中随机选取并由机器初判后人工筛选

篇章:与问题对应的文本段,从问题相关的网页中人工选取

候选答案:人工生成的答案,提供若干(三个)选项,并标注正确答案

数据以JSON格式表示如下样例:

{
“query_id”:1,
“query”:“维生c可以长期吃吗”,
“url”: "https://wenwen.sogou.com/z/q748559425.htm",
“passage”: “每天吃的维生素的量没有超过推荐量的话是没有太大问题的。”,
“alternatives”:"可以|不可以|无法确定",
“answer”:“可以”
}

训练集给出上述全部字段,测试集不给answer字段

结果提交说明
最终结果为文本文件,每行一个问题id和对应的答案。形式为queryid \t answertext(例如100 \t 可以)

对于A集合,只需提交最终结果文件。

对于B集合,需要在主办方提供的环境部署可执行预测代码及数据(注意只需要提供预测代码和相关数据即可):

  1. 参赛者按说明方法申请获得计算资源环境 (要求参赛者在A集合成绩排在前100名内) 。

  2. 参赛者在计算资源环境中,按要求部署代码和数据,并验证正确性。

  3. 参赛者提交通知系统代码和数据已就绪。

  4. 系统将基于参赛者提交的代码和数据,按指定命令方式执行(评测方提供的平台支持常见运行环境以及参赛者自定义和部署运行环境),输入为测试文件名,输出结果为格式符合要求的最终结果文件。

  5. 系统基于执行结果通过评测工具自动计算成绩,并适时发布。

评价标准
采用Accuracy指标对预测答案进行评价

Accuracy = 正确回答的question数 / 测试question总数

细粒度用户评论情感分析(AI challenger)

https://challenger.ai/competition/fsauor2018
赛题简介
在线评论的细粒度情感分析对于深刻理解商家和用户、挖掘用户情感等方面有至关重要的价值,并且在互联网行业有极其广泛的应用,主要用于个性化推荐、智能搜索、产品反馈、业务安全等。本次比赛我们提供了一个高质量的海量数据集,共包含6大类20个细粒度要素的情感倾向。参赛人员需根据标注的细粒度要素的情感倾向建立算法,对用户评论进行情感挖掘,组委将通过计算参赛者提交预测值和场景真实值之间的误差确定预测正确率,评估所提交的预测算法。
赛题描述
简介
在线评论的细粒度情感分析对于深刻理解商家和用户、挖掘用户情感等方面有至关重要的价值,并且在互联网行业有极其广泛的应用,主要用于个性化推荐、智能搜索、产品反馈、业务安全等。本次比赛我们提供了一个高质量的海量数据集,共包含6大类20个细粒度要素的情感倾向。参赛人员需根据标注的细粒度要素的情感倾向建立算法,对用户评论进行情感挖掘,组委将通过计算参赛者提交预测值和场景真实值之间的误差确定预测正确率,评估所提交的预测算法。
数据说明
数据集分为训练、验证、测试A与测试B四部分。数据集中的评价对象按照粒度不同划分为两个层次,层次一为粗粒度的评价对象,例如评论文本中涉及的服务、位置等要素;层次二为细粒度的情感对象,例如“服务”属性中的“服务人员态度”、“排队等候时间”等细粒度要素。评价对象的具体划分如下表所示。
Alt text
每个细粒度要素的情感倾向有四种状态:正向、中性、负向、未提及。使用[1,0,-1,-2]四个值对情感倾向进行描述,情感倾向值及其含义对照表如下所示:
Alt text
数据标注示例如下:

“味道不错的面馆,性价比也相当之高,分量很足~女生吃小份,胃口小的,可能吃不完呢。环境在面馆来说算是好的,至少看上去堂子很亮,也比较干净,一般苍蝇馆子还是比不上这个卫生状况的。中午饭点的时候,人很多,人行道上也是要坐满的,隔壁的冒菜馆子,据说是一家,有时候也会开放出来坐吃面的人。“

Alt text
结果提交说明
选手需根据训练的模型对测试集的6大类20个的细粒度要素的情感倾向进行预测,提交预测结果,预测结果使用[-2,-1,0,1]四个值进行描述,返回的结果需保存为csv文件。格式如下:
Alt text
标注字段说明:
Alt text

英中文本机器翻译(AI challenger)

https://challenger.ai/competition/ect2018
赛题简介
英中机器文本翻译作为此次比赛的任务之一,目标是评测各个团队机器翻译的能力。本次机器翻译语言方向为英文到中文。测试文本为口语领域数据。参赛队伍需要根据评测方提供的数据训练机器翻译系统,可以自由的选择机器翻译技术。例如,基于规则的翻译技术、统计机器翻译及神经网络机器翻译等。

本次竞赛将利用机器翻译的客观考核指标(BLEU、NIST score、TER)进行评分,BLEU得分会作为主要的机器评价指标。组委会将通过客观指标,并结合答辩表现,综合评估参赛者的算法模型。
赛题描述
简介
英中机器文本翻译作为此次比赛的任务之一,目标是评测各个团队机器翻译的能力。本次机器翻译语言方向为英文到中文。测试文本为口语领域数据。参赛队伍需要根据评测方提供的数据训练机器翻译系统,可以自由的选择机器翻译技术。例如,基于规则的翻译技术、统计机器翻译及神经网络机器翻译等。
本次竞赛将利用机器翻译的客观考核指标(BLEU、NIST score、TER)进行评分,BLEU得分会作为主要的机器评价指标。组委会将通过客观指标,并结合答辩表现,综合评估参赛者的算法模型。

数据说明
训练集文件名train.txt,其中每个训练样例包含自左至右4个元素:DocID, SenID, EngSen,ChnSen。DocID表示这个样例出现在哪个文件中,DocID用来提供训练集中句子出现的场景和上下文情景。SenID表示这个样例在DocID中出现的位置,比如,如果SenID为94,那么这个样例就是DocID的第94句话。若无上下文信息,则DocID和SenID均为NA。EngSen和ChnSen分别对应英文句子和中文句子,二者互译。

验证集和测试集为.sgm文件,句子格式和训练集相同。其中测试集没有与英文句子EngSen对应的中文句子ChnSen。

训练集和测试集、验证集的上下文文件包含所有语句的上下文的信息,其中每行包含自左至右三个元素:DocID, SenID, EngSen
Alt text
结果提交说明
选手返回的结果需要采用指定的XML格式,系统最终会利用BLEU计算脚本来计算提交结果的BLEU得分。我们会提供将翻译结果转换为xml格式的转换脚本,具体调用方式如下:
Alt text
评价标准
对于文本机器翻译,我们将采用机器翻译自动评价BLEU得分去评价翻译效果。英中机器翻译指标会采用基于字符(character-based)的评价方式,中文句子会被切分成单个汉字,翻译结果中的数字、英文等则不切分,然后再使用机器测试指标测试效果。所有的自动评测均采用大小写敏感(case-sensitive)的方式。

BLEU的定义如下:
Alt text
其中 p r e c i s i o n i precision_i precisioni表示 i i i元文法的正确率,即指定阶数i的正确文法个数占该阶文法总个数的比例。并且引入了长度惩罚(brevity-penalty)因子。如果译文过短就会被惩罚扣分。 λ i \lambda_i λi一般设置为1

“讯飞杯”中文机器阅读理解评测 (CMRC 2018)

https://hfl-rc.github.io/cmrc2018/
任务描述
今年我们将聚焦基于篇章片段抽取的阅读理解(Span-Extraction Machine Reading Comprehension),作为填空型阅读理解任务的进一步延伸。虽然在英文阅读理解研究上有例如斯坦福SQuAD、NewsQA等篇章片段抽取型阅读理解数据集,但目前相关中文资源仍然处于空白状态。本届中文机器阅读理解评测将开放首个人工标注的中文篇章片段抽取型阅读理解数据集,参赛选手需要对篇章、问题进行建模,并从篇章中抽取出连续片段作为答案。 本次评测依然采取训练集、开发集公开,测试集隐藏的形式以保证评测的公平性。

CCKS 2018 面向中文电子病历的命名实体识别

https://www.biendata.com/competition/CCKS2018_1/

任务定义及描述
本评测任务为面向中文电子病历的命名实体识别,即对于给定的一组电子病历纯文本文档,任务的目标是识别并抽取出与医学临床相关的实体提及(entity mention),并将它们归类到预先定义好的类别(pre-defined categories),比如症状,药品,手术等。

Alt text

CCKS 2018 面向音乐领域的命令理解任务

https://www.biendata.com/competition/CCKS2018_2/

任务描述
对话系统是自然语言处理中一个重要的研究方向,也是人机交互的一种重要形式。其中,用户话语(utterance)可以根据意图的不同进一步分为聊天、问答、命令等。对于任务完成式系统而言,能够正确解析用户命令是完成指定任务的基础。因此,本任务主要关注口语对话系统中的命令理解问题。

在本次任务中,我们主要关注音乐领域,并进一步将音乐领域的命令理解分为两个子任务:1)音乐领域意图判断; 2)音乐领域槽填充接下里,分别介绍两个任务的目标。

1.音乐领域意图判断
音乐领域意图判断的目标为判断用户的某条话语(utterance)是否表达了一个音乐领域内的意图。另外,在实际对话系统中,用户的一条话语往往存在相当大的歧义和模糊。因此,在本次测评中,系统需要通过一个话语片段(包括同一用户连续4个话语),判断最后一条话语片段是否表达了音乐意图。
2.音乐领域槽填充
用户的某条话语(utterance)被标注为音乐领域意图后,为了完成该意图,需要将该话语中提及的相关参数提取出来,在此,话语中的相关参数被称为“槽”(slot)。比如说,在音乐领域中,最常见的槽是“歌手”和“歌曲”等。将相关参数识别出来的任务,称为槽填充。

本次评测任务的主要目标是针对对话系统中用户的真实话语,判断该条话语是否表达了音乐领域的意图,如果是,则完成该意图的槽填充。所有语料来自原始的对话系统用户日志,并经过了筛选和人工的意图判断和槽填充。

CCKS 2018 开放领域的中文问答任务

https://www.biendata.com/competition/CCKS2018_4/
任务描述
本评测任务为基于开放领域知识库的中文问答,简称COQA (Chinese Open-domain Question Answering)。即对于给定的一句中文问题,问答系统从给定知识库中选择若干实体或属性值作为该问题的答案。问题均为客观事实型,不包含主观因素。理解并回答问题的过程中可能需要进行实体识别、关系抽取等子任务。这些子任务的训练可以使用额外的资源,但是最终的答案必须来自给定的知识库。
输入
输入文件包含若干行中文问句。
输出
输出文件每一行对应一个问题的答案列表,列表内元素以 \t 分隔。
Alt text

Byte Cup 2018 国际机器学习竞赛

https://www.biendata.com/competition/bytecup2018/
背景介绍
2018 Byte Cup国际机器学习竞赛(以下简称Byte Cup)是一项面向全球的机器学习竞赛,旨在促进机器学习的学术研究和具体应用。2016年,Byte Cup首次举办,共吸引全球1000多支队伍参赛,共同完成“为头条问答的问题在今日头条专家用户中寻找潜在的答案贡献者”这一竞赛任务。

2018年,字节跳动联合中国人工智能学会、IEEE中国代表处等机构,合作举办Byte Cup 2018,通过更具挑战的竞赛任务和优质的品牌资源,吸引更多的优秀队伍参赛。

Byte Cup 2018的主题是自动生成文本标题。 自从互联网诞生以来,人类产生和获取的文字信息量增加了很多。移动互联网更是能让每个人随时随地都可以接收到最新的信息,并且可以随时随地创作内容。内容信息的过载让机器创作变得十分重要。首先,机器创作标题和摘要可以快速总结文章内容,方便迅速浏览。其次,根据今日头条等产品的数据,内容创造和内容的阅读量符合幂律:大量内容只有很少的人阅读。如果这部分内容可以由机器自动创作,可以极大地减小成本。此外,自动摘要和自动标题生成也是自然语言处理领域的重要研究课题。

因此,Byte Cup 2018的主题为“文章标题自动生成”。在为期三个月的时间里,参赛队伍需要训练出根据文章内容自动生成标题的模型,参与评测。

竞赛任务

Topbuzz是字节跳动在为北美和巴西的用户创造的一站式内容消费平台,它利用机器学习算法为用户提供个性化视频、GIF图、本地新闻及重大新闻。目前,Topbuzz每天都会发布大量的文章,但如何为创作者提供更好的标题选择是Topbuzz目前面临的一个问题。为解决这一问题,此次竞赛任务是为Topbuzz提供的英文文章自动生成标题。

参赛队伍可以使用比赛组织者提供的训练数据搭建模型,为文章生成标题。在比赛期间,选手可以在验证集上自由提交,检验结果。比赛最后一天组织者会发布测试集,比赛的最终成绩由参赛队伍提交的模型在测试集上的表现决定。训练集、验证集和测试集的数据来自字节跳动旗下产品TopBuzz和开放版权的文章。每条测试集和验证集的数据经由人工编辑手工标注多个可能的标题,作为答案备选。

数据集

本次竞赛使用的训练集包括了约130万篇文本的信息,每篇文本都是一个类似json格式的行,如以下内容:

{"content": "Being the daughter of Hollywood superstar Tom Cruise and America's sweetheart Katie Holmes...", 
"id": 1198440, 
"title": "Suri Cruise 2018: Katie Holmes Bonds With Daughter During Dinner Date While Tom Cruise Still MIA"}

文档一共包含三类信息:

1)文章id(id):每篇文本对应一个unique id;

2)文章内容(content):即文章的内容字符串;

3)文章标题(title):文章的标题,参赛选手需要自己生成验证集和测试集的标题。

验证集和测试集格式和训练集相似,但是没有title,需要参赛选手预测。

CCKS 2018 微众银行智能客服问句匹配大赛

https://www.biendata.com/competition/CCKS2018_3/
任务描述

微众银行智能客服问句匹配大赛是由微众银行提供语料支持,哈尔滨工业大学(深圳)智能计算研究中心负责组织实施的真实场景语句意图匹配任务。

语句匹配是自然语言处理的最基本任务之一,是自动问答,聊天机器人,信息检索,机器翻译等各种自然语言处理任务基础。语句匹配问题的复杂性在于,匹配的要求不同,对匹配的定义也不尽相同,比如经典的语句复述判别问题,需要判断两句话是否仅仅是表述方式不同,但意义相同,而在Quora的的的问句匹配语料发布后,大量在该语料库上开展的语句匹配研究工作都沿袭语料发布者的定义,称为语义等价判别,语义等价判定,等价,而不直接判断两个语句是否表达相同的语义,所以其核心是语句的意图匹配。由于来源于真实问答语料库,该任务更加接近于智能客服等自然语言处理任务的实际需求。

与基于Quora的的的语义等价判别相同,本次评测任务的主要目标是针对中文的真实客服语料,进行问句意图匹配。集给定两个语句,要求判定两者意图是否相同或者相近。所有语料来自原始的银行领域智能客服日志,并经过了筛选和人工的意图匹配标注。

输入:一个语句对

输出:表明该语句对是否表达相同或者相似意图的二值标签(0或1)

示例:

样例1

输入:一般几天能通过审核\ t一般审核通过要多久

输出:1

样例2

输入:一般会在什么时候来电话\ t一直在等待电话通知

输出:0

2017 知乎看山杯机器学习挑战赛

https://www.biendata.com/competition/zhihu/
背景简介
目前,知乎上的内容分发的一个重要途径是通过关注关系生成的 Feed 流。关注关系可能是基于人,也可能是基于「话题」标签;从用户关注的话题标签为用户推荐内容,会更加契合用户对不同领域、不同类型的知识的需求。因此,对知乎上的内容进行精准的自动化话题标注,对提升知乎的用户体验和提高内容分发效率有非常重要的支撑作用。同时,对文本的语义进行理解和自动标注,尤其是在标签数量巨大、标签之间具有一定的相互关联关系的场景下的 tagging,也是目前自然语言处理的一个前沿研究方向。因此,知乎算法团队联合中国人工智能学会、 IEEE计算机协会和IEEE中国代表处,举办「知乎看山杯机器学习挑战赛」,期望能够激发更多的优秀人才对于自然语言处理领域的兴趣,并且促进语义分析的应用,从而最终革新甚至改变人的信息获取方式。
任务描述
参赛者需要根据知乎给出的问题及话题标签的绑定关系的训练数据,训练出对未标注数据自动标注的模型。

标注数据中包含 300 万个问题,每个问题有 1 个或多个标签,共计1999 个标签。每个标签对应知乎上的一个「话题」,话题之间存在父子关系,并通过父子关系组织成一张有向无环图(DAG)。

由于涉及到用户隐私及数据安全等问题,本次比赛不提供问题、话题描述的原始文本,而是使用字符编号及切词后的词语编号来表示文本信息。同时,鉴于词向量技术在自然语言处理领域的广泛应用,比赛还提供字符级别的 embedding 向量和词语级别的 embedding 向量,这些 embedding 向量利用知乎上的海量文本语料,使用 google word2vec 训练得到。

除了对原始文本进行大小写转换、全半角转换及去除一些特殊字符(如 emoji 表情、不可见字符)等处理之外,训练数据和预测数据都没有经过任何清洗。

搜狐第二届算法大赛

https://www.biendata.com/competition/sohu2018/

大赛背景介绍

随着信息技术的不断发展,千人千面的信息推荐方式给亿万网民的阅读带来了便利,但同时营销、低俗、标题党等低质量新闻的掺杂也给用户带来了不同程度上的困扰。

给用户提供更好的阅读体验,一直是搜狐新闻追求的目标。新闻资源是一切服务的基石,只有在高质量新闻资源的基础上,才可能构建用户体验的巴别塔。

因此,准确识别低质量的新闻资源,是提高新闻资源质量的重要的环节,也是新闻资讯领域共待解决的重要课题。

搜狐校园、搜狐智能推荐平台联合CCF和清华大学共同举办本次内容识别算法大赛,搜狐提供百万级真实数据,诚请各路大咖共同解决这一算法课题。

任务描述
*初赛
参赛队伍利用主办方给定的数据集来训练模型,训练数据分为标注数据(数据集规模为5万条新闻和35万张新闻配图,标注为有营销意图的新闻、文本片段和配图),和未标注数据(数据规模为20万条新闻和100万张新闻配图)。比赛要求在给定新的新闻内容集合和配图集合之后(数据集规模为1万条新闻和7万张新闻配图),参赛队伍能识别出有营销意图的新闻、文本片段和配图。
*复赛
初赛前30名队伍进入复赛,对数万级别的图文数据集进行算法PK。

第七届全国社会媒体处理大会(SMP2018)文本溯源技术评测(SMP-ETST)

https://www.biendata.com/competition/smpetst2018/

背景简介

关于SMP 2018
全国社会媒体处理大会(SMP)由中国中文信息学会社会媒体处理专委会主办,专注于以社会媒体处理为主题的科学研究与工程开发,为传播社会媒体处理最新的学术研究与技术成果提供广泛的交流平台,旨在构建社会媒体处理领域的产学研生态圈,成为中国乃至世界社会媒体处理的风向标,会议将以社交网络的形式改变传统的学术会议交流体验。第七届全国社会媒体处理大会(SMP 2018)由哈尔滨工业大学承办,将于2018年8月2—4日在哈尔滨召开。本次会议的竞赛单元有用户画像、中文人机对话和文本溯源三个项目。

关于文本溯源技术评测
SMP 2018文本溯源技术评测由军事科学院军事科学信息研究中心与大会联合主办。本次技术评测以科研立项或成果创新型审查为应用背景,文本溯源的目标是判断一个文本的内容是否复制或改编于另外一个或者多个文件。文本溯源技术在学术诚信检测、搜索引擎优化等领域有广泛应用。

CHIP 2018(第四届中国健康信息处理会议)

https://www.biendata.com/competition/chip2018/
背景简介
第四届中国健康信息处理会议(CHIP)是中国信息处理学会(CIPS)技术委员会展开的关于医疗、健康和生物信息处理的年度研讨会。CHIP是中国健康信息处理领域的国际领先会议。CHIP是世界各地学术界,行业界和政府的研究人员和从业人员分享他们的想法,进一步推广此领域的研究成果和经验的主要论坛。CHIP会议曾在深圳(2015、2016和2017年)成功举办,在前三次会议上,美国和中国的专家们通过口头报告分享了他们的研究成果和经验,主要以特邀报告和圆桌讨论为主。从2017年开始,会议增加了前沿讲习班和论文评审环节,前沿讲习班主要包括领域基础知识和方法的培训、系列研究成果分享等,论文评审环节接受这一领域的最新研究成果论文投稿,所有被接受的论文均被推荐到SCI期刊(BMC Medical Informatics and Decision Making等)发表。2018年,会议将增加中文临床医疗信息处理方面的评测任务。

CHIP 2018官方网站:http://icrc.hitsz.edu.cn/chip2018/index.html
任务描述
问句匹配是自然语言处理的最基本任务之一,是自动问答、聊天机器人、信息检索、机器翻译等各种自然语言处理任务基础。问句匹配的主要目的是判断两个问句之间的语义是否等价。判别标准主要根据主句(即提问者)所蕴含的意图来判断两个语句是否等价,而不直接判断两个语句是否表达相同的语义。因此,其核心是语句的意图匹配。由于来源于真实问答语料库,该任务更加接近于智能医疗助手等自然语言处理任务的实际需求。

本次评测任务的主要目标是针对中文的真实患者健康咨询语料,进行问句意图匹配。给定两个语句,要求判定两者意图是否相同或者相近。所有语料来自互联网上患者真实的问题,并经过了筛选和人工的意图匹配标注。平安云将为报名的队伍提供GPU的训练环境。

2018开放学术数据挖掘大赛

https://www.biendata.com/competition/scholar2018/

背景介绍
在许多应用中,同名消歧一直被视为一个具有挑战性的问题,如科学文献管理、人物搜索、社交网络分析等。科学文献的大量增长使得该问题变得更加困难与紧迫。尽管同名消歧已经在学术界和工业界被大量研究,但该问题仍未能很好解决。

本次比赛由中国工程院知识中心,中国人工智能学会,清华大学知识智能联合研究中心联合主办。由清华大学AMiner团队提供比赛用数据及设定比赛规则。AMiner是一个以学者为中心的学术搜索和挖掘平台,旨在为用户提供研究者语义信息抽取、面向话题的专家搜索、权威机构搜索、话题发现和趋势分析、基于话题的社会影响力分析、研究者社会网络关系识别等众多功能。AMiner涵盖各学术领域超过2亿篇论文和1亿多位学者。作者同名消歧是AMiner系统的一个核心功能和挑战。

任务
本次竞赛会提供AMiner中大量有挑战性的作者同名消歧数据集,表现在每个姓名关联的论文和学者数量有所增加。本次竞赛的任务是识别出哪些同名作者的论文属于同一个人。

数据集

比赛数据集包含训练集、验证集和测试集三部分。训练集规模最大,可供参赛者进行训练,但数据可能包含一些噪音。验证集和测试集是经过标注的正确结果,参赛者可以用验证集进行离线评估。测试集将会在比赛即将结束时公布,比赛的最终结果由测试集的评估结果决定。

训练集

  1. pubs_train.json:此文件为训练集中所包含的论文元数据。数据格式如下表所示:
    Alt text
  2. assignment_train_noisy.json:此文件为训练集中论文的重名消岐结果,其中每个名字对应一组论文id的聚类。该聚类结果由算法生成,其中可能包含噪音。

验证集

  1. pubs_validate.json:此文件为验证集中所包含的论文元数据。
  2. assignment_validate.json:此文件为验证集中论文的重名消岐结果,其中每个名字对应一组论文id的聚类。该聚类结果经过人工标注,其中包含的论文id为pubs_validate.json中论文的子集。

测试集

  1. pubs_test.json:此文件为测试数据中论文的元数据。

判决文书中的金额项提取

https://www.datafountain.cn/competitions/226/details
大赛介绍
判决书,法律术语,是指法院根据判决写成的文书。是法律界常用的一种应用写作文体,包括民事判决书、刑事判决书、行政判决书和刑事附带民事判决书。 具体定义可参考:http://t.cn/RyZUXaR

法律判决文书中包含大量的涉案金额细项,本题目要求提取文书中的费用类型以及具体的金额. 举例来说:

被告刘XX在强制保险限额外赔偿原告马X部分伤残赔偿金人民币98774.4元[(409248元-80000元)×30%],部分护理费62993.16元(209977.2元×30%),部分误工费12195.94元(40653.12元×30%),部分被抚养人王鑫瞳生活费27045元(90150元×30%),部分交通费600元(2000元×30%),部分鉴定费948元(3160元×30%)
要求提取出的内容为:
伤残赔偿金98774.4元
护理费62993.16元
误工费12195.94元
生活费27045元
交通费600元
鉴定费948元

本题目解决的难点:

判决文书是由人工手工根据一定格式填写的不免其中会出现输入格式不规范的问题, 需要处理多样式的数据.
举例来说:生活费”27045元”可能会被写成“27O45元”、 “270 45元”等.
数字的表达形式丰富多彩, 需要准确的表达.
举例来说:生活费”27045元”可能会被写成”两千柒佰零肆拾伍元”, 也可能写成”27,045元”等.
在句子中出现的位置灵活多变
举例来说:”生活费27045元” 可能被写成“27045元的生活费”, “生活费XXXX共计27045元”等.

赛题任务
提取文书中的费用类型以及具体的金额

  • 12
    点赞
  • 2
    评论
  • 39
    收藏
  • 一键三连
    一键三连
  • 扫一扫,分享海报

©️2021 CSDN 皮肤主题: 编程工作室 设计师:CSDN官方博客 返回首页
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值