第十三届“华中杯”大学生数学建模挑战赛题目 B 题 技术问答社区重复问题识别

B 题 技术问答社区重复问题识别

技术社区问答平台作为用户互相分享交流的社区平台,近年来逐步成为用户寻找技术类疑难解答的首要渠道。 各分类技术性问题的文本数据量不断攀升,给问答平台的日常运营维护带来了挑战。随着新用户的不断加入以及用户数量的增加,新用户提出的疑问可能已经在平台上被其他用户提出并解答过,但由于技术性问题的复杂性,各个用户提问的切入角度不同,用问题标题关键词匹配的搜索系统无法指引新用户至现有的问题。于是,新用户会提出重复的问题,而这些问题会进一步增加平台上的文本量,导致用户重复响应相同的问题。对于这种现象,通常的做法是及时找到新增的重复问题并打上标签,然后在搜索结果中隐藏该类重复问题,保证对应已解决问题出现的优先度。所以,建立一个基于自然语言处理技术的自动标重系统会对问答平台的日常维护起到极大帮助。
目前,问答平台上的问题标重主要依靠用户人工辨别。平台用户会对疑似重复的问题
进行投票标记,然后平台内的管理员和资深用户(平台等级高的用户)对该问题是否被重
复提问进行核实,若确认重复则打上重复标签。该过程较为繁琐,依赖用户主观判断,存
在时间跨度大、工作量大、效率低等问题,增加了用户的工作量且延长了新用户寻求答案
所需的时间。因而,如能建立一个检测问题重复度的模型,通过配对新提出问题与文本库
中现存问题,找出重复的问题组合,就能提高重复问题标记效率,提高平台问题的文本质
量,减少问题冗余。同时,平台用户也能及时地根据重复标签提示找到相关问题并查看已
有的回复。
附件给出了问答平台上问题的文本内容记录,以及比较两个问题之间是否重复的数据
集。请根据附件给出的问题文本数据及问题配对信息,建立一个能判断问题是否重复的分
类模型,并解决:
1)输出样本问题组为重复问题的概率;
通常使用 F1-score 对分类模型进行评价:
F1-score
其中𝑃𝑖为第𝑖类的查准率,𝑅𝑖为第𝑖类的查全率;
2)从附件问题列表中,给出与目标问题重复概率最大的前 10 个问题的编号;
对于每个问题的预测结果采用 top K 列表对其进行评估,评估公式如下:
在这里插入图片描述

其中𝑁𝑑𝑒𝑡𝑒𝑐𝑡𝑒𝑑 为在 top K 列表结果中正确检测到的重复问题编号数量,𝑁𝑡𝑜𝑡𝑎𝑙为该样
本实际拥有的重复问题数量。评估时 K 取 10,若样本中无重复问题则不会计分。

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Code_King1

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值