kaggle:Quora Insincere Questions Classification

这是一个Kaggle比赛,目标是建立模型识别Quora上不真诚的问题。不真诚的问题定义为发表声明而非寻求答案的问题,如带有非中性语气、修辞或贬低性内容的问题。比赛提供数据包括问题文本和真诚度标签,并提供了几种预训练的词嵌入以供使用。参赛者需通过Kaggle内核提交预测结果。
摘要由CSDN通过智能技术生成

问题描述:

今天任何一个主要网站的存在问题是如何处理有毒(toxic)和分裂(divisive)的内容。 Quora希望正面(head-on)解决(tackle)这个问题,让他们的平台成为用户可以安全地与世界分享知识的地方。

Quora是一个让人们相互学习的平台。 在Quora上,人们可以提出问题,并与提供独特见解和质量回答(unique insights and quality answers)的其他人联系。 一个关键的挑战是淘汰(weed out)虚假的问题 - 那些建立在虚假前提(false premises)下的问题,或者打算发表声明而不是寻求有用答案的问题。

在本次比赛中,Kagglers将开发识别和标记虚假问题(flag insincere questions)的模型。 到目前为止(To date),Quora已经使用机器学习和人工审查(manual review)来解决这个问题(address this problem)。 在您的帮助下,他们可以开发更具可扩展性的方法(develop more scalable methods)来检测有毒和误导性内容(detect toxic and misleading content)。

这是你大规模对抗在线巨魔(combat online trolls at scale)的机会。 帮助Quora坚持(uphold)“善良,尊重”(Be Nice, Be Respectful)的政策,继续成为分享和发展世界知识的地方。

Important Note:(注意)
请注意,这是作为a Kernels Only Competition运行,要求所有submissions都通过Kernel output进行。 请仔细阅读内核常见问题解答和数据页面,以充分了解其设计方法。

Data Description(数据描述)

在本次比赛中,您将预测Quora上提出的问题是否真诚(sincere)。

一个虚伪的(insincere)问题被定义为一个旨在发表声明而不是寻找有用答案的问题。 一些可以表明问题虚伪(insincere)的特征:

  • 具有非中性语气(Has a non-neutral tone)
    - 夸张的语气(exaggerated tone)强调了一群人的观点
    - 是修辞(rhetorical)的,意味着暗示(meant to imply)关于一群人的陈述
  • 是贬低(disparaging)或煽动性的(inflammatory)
    - 建议针对受保护阶层的人提出歧视性(discriminatory)观点,或寻求确认陈规定型观念(confirmation of a stereotype)
    - 对特定的人或一群人进行贬低(disparaging)的攻击/侮辱(attacks/insults)
    - 基于关于一群人的古怪前提(outlandish premise)
    - 贬低(Disparages)不可修复(fixable)且无法衡量(measurable)的特征
  • 不是基于现实(Isn’t grounded in reality)
    - 基于虚假信息(false information),或包含荒谬的假设(absurd assumptions)
  • 使用性内容(乱伦incest,兽交bestiality,恋童癖pedophilia)来获得震撼价值,而不是寻求真正的(genuine)答案

训练数据包括被询问的问题(question that was asked),以及是否被识别为真诚的(insincere)(target=1)。真实 (ground-truth)标签包含一些噪音:它们不能保证是完美的。

请注意,数据集中问题的分布不应被视为代表Quora上提出的问题的分布。 部分原因是由于采样程序和已应用于最终数据集的消毒(sanitization)措施的组合。

Data fields(数据域描述)

  • qid - 唯一的问题标识符
  • question_text - Quora问题文本
  • target - 标记为“insincere”的问题的值为1,否则为0

这是仅限内核的比赛(Kernels-only competition)。 此数据部分中的文件可供下载,以便在阶段1中参考。阶段2文件仅在内核中可用且无法下载。

比赛的第二阶段会有什么?

在比赛的第二阶段,我们将重新运行您选择的内核。 以下文件将与新数据交换:

  • test.csv - 这将与完整的公共和私有测试数据集交换。 该文件在阶段1中具有56k行,在阶段2中具有376k行。两个版本的公共页首数据保持相同。 文件名将相同(均为test.csv)以确保您的代码将运行。
  • sample_submission.csv - 类似于test.csv,这将从第1阶段的56k变为第2阶段的376k行。 文件名将保持不变。

Embeddings

本次比赛不允许使用外部数据源。 但是,我们提供了许多字嵌入以及可以在模型中使用的数据集。 这些如下:

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值