300万知乎多标签文本分类任务经验分享（附源码）

数据派THU

于 2017-11-30 00:00:00 发布

阅读量1.2w

点赞数 10

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/tMb8Z9Vdm66wH68VX1/article/details/78679672

版权

本文介绍了作者参加知乎看山杯机器学习比赛并夺冠的经验，包括数据处理、模型介绍（TextCNN、TextRNN、TextRCNN、TextInception等）、训练方法和模型融合策略。分享了数据脱敏、预训练词向量的使用、模型结构优化和多模型融合等关键点，并提供PyTorch源码。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

来源：大数据挖掘DT数据分析

本文长度为4600字，建议阅读6分钟

本文为你分享知乎看山杯冠军团队参赛经验。

后台回复回复关键词“PT”即可获取源码（PyTorch实现）github地址。

七月，酷暑难耐，认识的几位同学参加知乎看山杯，均取得不错的排名。当时天池AI医疗大赛初赛结束，官方正在为复赛进行平台调试，复赛时间一拖再拖。看着几位同学在比赛中排名都还很不错，于是决定抽空试一试。结果一发不可收拾，又找了两个同学一起组队（队伍init）以至于整个暑假都投入到这个比赛之中，并最终以一定的优势夺得第一名。

比赛介绍

这是一个文本多分类的问题：目标是“参赛者根据知乎给出的问题及话题标签的绑定关系的训练数据，训练出对未标注数据自动标注的模型”。通俗点讲就是：当用户在知乎上提问题时，程序要能够根据问题的内容自动为其添加话题标签。一个问题可能对应着多个话题标签，如下图所示。

这是一个文本多分类，多label的分类问题（一个样本可能属于多个类别）。总共有300万条问题-话题对，超过2亿词，4亿字，共1999个类别。

1.1 数据介绍

参考 https://biendata.com/competition/zhihu/data/

https://biendata.com/competition/zhihu/rules/?next_url=%2Fcompetition%2Fzhihu%2Fdata%2F

总的来说就是：

数据经过脱敏处理，看到的不是“如何评价2017知乎看山杯机器学习比赛”，而是“w2w34w234w54w909w2343w1"这种经过映射的词的形式，或者是“c13c44c4c5642c782c934c02c2309c42c13c234c97c8425c98c4c340”这种经过映射的字的形式。
因为词和字经过脱敏处理，所以无法使用第三方的词向量，官方特地提供了预训练好的词向量，即char_embedding.txt和word_embedding.txt ，都是256 维。
主办方提供了1999个类别的描述和类别之间的父子关系（比如机器学习的父话题是人工智能，统计学和计算机科学），但这个知识没有用上。
训练集包含300万条问题的标题（title），问题的描述（description）和问题的话题（topic）
测试集包含21万条问题的标题（title࿰

最低0.47元/天解锁文章

评论 91

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。