健康问答语料的爬虫(C#)

为了实现健康问答系统的构建,需要找一些语料,发现好大夫在线的数据挺好的,于是花了一个小时时间,写了个爬虫,能够爬取其页面上显示的40个疾病左右的问答语料。


采用C#来编写,主要效率高一些。开辟了20个线程进行下载,约下载了30多万的问答语料。




爬取下来的结果如下所示:可以看到当中存在着几轮对话,当然也有一些噪声,如尽快填表等。


######
鼻炎患者的治疗[鼻炎] http://www.haodf.com/wenda/wangzhenghe1_g_5409878737.htm
y*** 状态:就诊前 2017-08-09 咨询标题:鼻炎患者的治疗 疾病: 鼻炎 过敏史: 无(2017-08-08填写) 病情描述: 过敏性鼻炎,检测花粉和灰尘过敏,现在鼻腔干燥,鼻粘膜损伤,眼睛痒,鼻塞。 希望提供的帮助: 如何用药治疗 所就诊医院科室: 石嘴山市第三人民医院 耳鼻喉 用药情况: 药物名称:盐酸西替利嗪 服用说明:1次每日 既往病史: 无(2017-08-08填写) 好大夫在线友情提示: 请详细描述或拍照上传疾病相关检查结果,以便医生了解病情,给出诊疗建议。 如何上传:您可以将检查报告用数码相机拍成照片,在您的咨询服务申请详情页面点击“补充资料”完成上传。
王** 大夫 2017-08-09 您好,咨询我已看到,为了给您提供更高质量的回复,需要您提供更多的信息,请配合填写一下问诊表
王** 大夫 2017-08-09 请尽快填表,我需要了解你的情况
王** 大夫 2017-08-09 请尽快填表,我需要了解你的情况
y*** 状态:就诊前 2017-08-12 我已完成了您下发的《小儿过敏性鼻炎问诊表》 点击查看详情
王** 大夫 2017-08-12 现在做什么治疗?
y*** 状态:就诊前 2017-08-16 服用盐酸西替利嗪,有症状时才服用。请问,如何系统治疗。
王** 大夫 2017-08-16 如果确诊是过敏性鼻炎,单单用这个药应该不够
$$$$$$


注:由于好大夫在线也设置了一些反爬虫策略,本文获取数据只是用于实验室实验用。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
### 回答1: 问答语料标注系统实现的难点主要集中在以下几个方面: 1. 数据质量控制:要准确地标注问答语料,需要保证数据的质量。因此在实现问答语料标注系统时,需要设计数据质量控制机制,包括数据清洗、去重、筛选等,确保数据的准确性、完整性和一致性。 2. 标注规则设计:标注规则是指对于不同类型的问题和答案,如何进行标注。在实现问答语料标注系统时,需要设计标注规则,包括标注的类别、标注方式、标注约束等,以确保标注的标准化和一致性。 3. 标注工具设计:标注工具是指用于标注的软件工具。在实现问答语料标注系统时,需要设计标注工具,包括界面设计、交互设计、数据导入导出、标注流程控制等,以提高标注效率和标注质量。 4. 标注结果验证:标注结果的准确性是保证问答语料质量的关键因素之一。在实现问答语料标注系统时,需要设计标注结果验证机制,包括人工验证、自动验证等,以确保标注结果的准确性和一致性。 ### 回答2: 问答语料标注系统的实现涉及到一些难点,以下是一些常见的难点: 1. 标注数据的获取:为了训练和验证问答语料标注系统,需要大量的带有标注的数据。但是,获取高质量的标注数据是一个挑战。因为问答问题的答案可能是主观的,人们在解释同一问题时可能会给出不同的答案。因此,确保标注数据的准确性和一致性是一个困难。 2. 标注数据的标准化:在进行标注时,需要为问题和答案定义一套标准,以确保标注的一致性和可用性。这需要具有相关领域知识的专家参与,花费大量的时间和精力。 3. 问题和答案的多样性:问答语料标注系统需要能够适应各种类型和形式的问题和答案。问题可能是简单的事实型问题,也可能是开放性的问题,答案可能是单词、短语、句子甚至是段落。因此,设计一个能够处理多样性的系统是一项挑战。 4. 模糊问题和答案的处理:有些问题和答案可能是含糊不清的,例如歧义性问题或模糊的答案。在标注系统中,需要考虑如何进行有效的模糊处理,以提高系统的鲁棒性和适应性。 5. 性能评估的难点:评估问答语料标注系统的性能是一个困难的任务。因为问题和答案的多样性和复杂性,如何有效地评估系统的准确性和效率是一个挑战。 总的来说,问答语料标注系统的实现面临着从数据获取到标准化、多样性处理以及性能评估等多个方面的难点,需要仔细规划和解决这些难点,才能构建出高质量的问答语料标注系统。 ### 回答3: 问答语料标注系统实现时,可能面临以下几个难点: 1. 标注标准的制定:一个好的问答系统需要有高质量的标注数据。但是制定标注标准往往非常困难,因为问题和答案的多样性使得标注的一致性变得非常困难。标注者之间可能会对于相同的问题和答案产生不同的理解和判断,从而导致标注结果的不一致性。 2. 样本选择偏差:在构建问答语料库时,可能存在样本选择偏差的问题。这意味着我们选取的问题和答案并不完全代表实际应用场景中的多样性。因此在选择样本时要尽量避免过于简单或者过于复杂的问题,以及过于偏向某个特定领域的问题,以获得更加广泛和全面的标注数据。 3. 标注数据的量和质量:标注数据的数量和质量对于问答系统的性能有着重要影响。然而,标注数据的获取通常需要耗费大量的人力和时间成本,同时标注过程还需要标注者具备专业知识和敏锐的判断力。因此,如何获取足够量且高质量的标注数据是实现问答语料标注系统中一个重要的挑战。 4. 语义匹配问题:在问答系统中,需要将用户提问的语义和相关的答案进行匹配。但语义的理解和表达常常是模糊和多样的,因此如何准确地度量问题与答案之间的语义关联度是一个具有挑战性的问题。 总之,问答语料标注系统实现时的难点主要包括标注标准的制定、样本选择偏差、标注数据的量和质量以及语义匹配问题。解决这些难点需要综合运用标注者的专业知识和判断力,优化标注过程,以获得高质量的标注数据,进而提高问答系统的性能。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值