中医药天池大数据竞赛——中医文献问题生成挑战（三）

最新推荐文章于 2023-08-06 22:43:31 发布

jasmine0244

最新推荐文章于 2023-08-06 22:43:31 发布

阅读量1k

点赞数

分类专栏： AI比赛文章标签：自然语言处理深度学习

本文链接：https://blog.csdn.net/jasmine0244/article/details/108902347

版权

前两篇主要写了数据预处理（https://blog.csdn.net/jasmine0244/article/details/108888236）和模型搭建（https://blog.csdn.net/jasmine0244/article/details/108902127），接下来就是K折模型验证评估。

官方的评估标准是以ROUGE-L(https://www.aclweb.org/anthology/W04-1013.pdf)为准。我在github上找到了一个免安装的版本，rouge4chinese（https://github.com/hpzhao/nlp-metrics）。

首先我们将K折的验证集也输出来，方便和验证集的预测结果进行评估

from tqdm import tqdm
k_folds = 5
for mode in range(k_folds): 
    valid_data = [data[j] for i, j in enumerate(random_order) if i % k_folds == mode]
    print(len(valid_data))
    with open("ref_{0}".format(mode), 'w', encoding='utf-8&

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

jasmine0244

关注关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

中医文献问题生成方案总结

herosunly的博客

01-21

1万+

0. 官方赛题解读 1. 方案一 1.1 问题建模 1.2 数据处理 1.3 模型方法 1.4 模型融合 1.5 经验总结 1.6 Q&A 1.7 代码链接 2. 方案二 2.1 赛题解析 2.2 数据分析与处理 2.3 模型方法 2.4 效果评估 2.5 总结与感想 3. 方案三 3.1 问题介绍 3.2 主干模型选择与预训练 3.3 模型 3.4 结论 3.5 Q&A 4. 方案四 4.1 任务介绍 4.2 模型设计 4.3 实验结果 5. 方案五 5.1 问题建模 5.2 数据处理 5.3 模型方法

中医药天池大数据竞赛——中医文献问题生成挑战（一）

jasmine0244的专栏

09-30

1742

比赛详情见https://tianchi.aliyun.com/competition/entrance/531826/introduction 第一次读到这个比赛，脑子出跳出来的就是苏大神的bert4keras(https://github.com/bojone/bert4keras)，因此，我就用bert4keras来做了，而且苏大神也给了我们example。我给一下我用的一些包的版本： tensorflow-gpu =2.1.0 keras=2.3.1 bert4keras=0.8.3 ...

2 条评论您还未登录，请先登录后发表或查看评论

中医药天池大数据竞赛——中医文献问题生成挑战（二）

jasmine0244的专栏

10-02

1013

接着上一篇（https://blog.csdn.net/jasmine0244/article/details/108888236）设置好参数： max_q_len = 80 max_a_len = 80 接下来就是构建模型部分了。首先加载词库和分词器， # 加载并精简词表，建立分词器 token_dict, keep_tokens = load_vocab( dict_path=dict_path, simplified=True, startswith=['[P

中医药领域的问题生成，阿里天池算法大赛Top1

数据派THU

06-20

332

来源：机器学习AI算法工程本文约1700字，建议阅读5分钟任务是中医药领域的问题生成挑战，而问题生成属于NLG中重要的一种应用。问题生成任务需要我们根据篇章及对应的答案自动生成相应的问题，即“篇章+答案→问题”这样的流程。训练集由三个字段（篇章、问题、答案）构成，测试集由两个字段（篇章、答案）构成，其中的问题字段需要我们生成。根据以上分析，我们可以采用Seq2Seq模...

AI比赛-NER：“万创杯”中医药天池大数据竞赛——中药说明书实体识别挑战

u013250861的博客

02-20

793

3、初赛截止后（10月21日20：00最后一次测评），组委会将进行排名前100名参赛队伍的入围审核，前100名团队将需要提交代码进行审核，组委会将按照比赛规则要求识别人工标注、代码高度重合、直接使用开源代码的队伍，无实际算法贡献，并终止上述团队参赛，晋级空缺名额后补。2、初赛阶段系统每天提供2次的评测机会，系统排行时间为10:00、20:00，每天更新排行榜，按照评测指标从高到低排序（排行榜将选择选手在本阶段的历史最优成绩进行排名展示，不做最终排名计算）。季军：3支队伍，每支队伍奖金玖仟，颁发获奖证书。

“万创杯”中医药天池大数据竞赛——中医文献问题生成挑战决赛第一名方案.zip

04-14

很抱歉，根据您提供的信息，这个压缩包文件““万创杯”中医药天池大数据竞赛——中医文献问题生成挑战决赛第一名方案.zip”似乎包含了一个或多个文件，但具体的文件名只有一个“222二婷3789”，这并不足以提供...

“万创杯”中医药天池大数据竞赛——中医文献问题生成挑战决赛第一名方案.zip

10-22

该压缩包文件“万创杯”中医药天池大数据竞赛——中医文献问题生成挑战决赛第一名方案.zip，显然包含的是关于中医药领域的一个大数据竞赛的顶级解决方案。这个比赛可能涉及到使用先进的数据分析和机器学习技术来处理...

“万创杯”中医药天池大数据竞赛——中医文献问题生成挑战决赛第一名方案.zip

最新发布

09-11

2、项目问题、技术讨论，可以给博主私信或留言，博主看到后会第一时间与您进行沟通； 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用，尤其对于人工智能、计算机科学与技术等相关专业，更为适合；...

Question Generation Dataset from Texts of Traditional Chinese Medicine 中医文献问题生成数据集-数据集

03-11

cr: Challenge of question generation from texts of traditional Chinese medicine(https://tianchi.aliyun.com/competition/entrance/531826/information). The dataset includes 3500pcs corpora.There are 1-4 QA set from each text after manual mark.中医文献问题生成数据集包含3500篇语料。每篇文档由人工标注产生1～4对(问题, 答案)对。 QA demo.txt terms of use.pdf

中医文献问题生成比赛-数据集

03-11

中医文献问题生成比赛数据集 round1_test_0907.json round1_train_0907.json

天池算法大赛商铺定位提交csv文件

11-10

这是用麦芽大佬代码跑出来的一个结果，大概0.971分，方便大家融合模型

python获取绝对路径

Shaun's blog

05-07

2756

获取文件绝对路径使用os.path from os import path file_path = path.abspath(__file__) 使用pathlib from pathlib import Path file_path = Path(__file__).resolve() 获取文件夹绝对路径使用os.path from os import path d...

万创杯”中医药天池大数据竞赛——中医文献问题生成挑战

u013250861的博客

08-06

234

本次标注数据源来自中医药领域文本，包括【黄帝内经翻译版】、【名医百科中医篇】、【中成药用药卷】、【慢性病养生保健科普知识】四个主要来源，共标注 13000对（问题、文档、答案），来源于5000篇文档，每篇文档由人工标注产生1～4对(问题, 答案)对。3500篇语料将开放出来用做训练数据，750篇语料开放出来用于初赛阶段评估，剩余的750篇测试数据用于决赛阶段的评测，不再开放下载，进入决赛的选手需要按照天池大赛官方要求提交模型到天池运行平台进行在线测评。中的文本中的连续片段。

天池数据集 | 精品数据集推荐医疗行业(下)

qq_40309616的博客

01-07

1781

医疗健康研究领域的小伙伴，福利又双叒叕来啦！

用SegNet进行室内布局语义分割

datayx的文章

02-28

2132

向AI转型的程序员都关注了这个号????????????人工智能大数据与深度学习 公众号：datayx用SegNet进行室内语义分割。依赖NumPyTensorflowKerasOpen...

问题生成(QG)与答案生成(QA)

明日世界

09-23

7204

继续 QG，梳理一下 MSRA 其他 3 篇关于 QG 的 paper： Two-Stage Synthesis Networks for Transfer Learning in Machine Comprehension Question Answering and Question Generation as Dual Tasks A Joint Model for Question ...

天池大数据比赛总结

weixin_33755847的博客

05-30

801

一直想总结一下这次的比赛，拖啊拖。。。一直等到现在，趁着现在要找实习，好好总结一下。比赛题目比赛的官方网站在这，IJCAI SocInf'16。这次比赛的题目是给定 2015 年 7 ~ 11 月份的用户在不同地点口碑购买记录，以及 2015 年 7 ~ 11 月淘宝上用户的购物行为数据，来预测 12 月这一整月用户来到一个地点之后...

天池比赛数据处理常用操作（最常用）

薛定谔的哈士奇博客

05-31

3488

主要是pandas中的操作，需要一定pandas基础：1 提取某列数据中包含':'的，返回ture，false，nan如：[data[label].str.contains(':')]2 dataframe 用astype(str)实现类型转换3 实现某种分割提取可用 pandas str的内置方法如df.str.split(':')4 df.iloc[0:10]实现按行索引5 df.grou...

医学数据集汇总

huihui__huihui的博客

05-18

1685

https://github.com/linhandev/dataset https://aistudio.baidu.com/aistudio/datasetoverview

阿里云天池大数据赛：中医药文献问题生成

资源摘要信息: "2020-阿里云天池大数据竞赛-中医药文献问题生成挑战赛-Tianchi2020ChineseMedicineQuestionGeneration" ### 知识点 1. **大数据竞赛** - 描述中的“阿里云天池大数据竞赛”指的是由中国领先的...