零基础入门NLP - 新闻文本分类

最新推荐文章于 2022-09-23 10:29:09 发布

喜欢打酱油的老鸟

最新推荐文章于 2022-09-23 10:29:09 发布

阅读量1.2k

点赞数 1

原文链接：https://zhuanlan.zhihu.com/p/166463089

版权

人工智能专栏收录该内容

4206 篇文章

订阅专栏

本文记录了使用TextCNN模型参与新闻文本分类竞赛的过程，详细介绍了模型应用、参数调整及效果评估，最终在官方测试集中获得0.9328分。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文是对阿里云新人竞赛中的“零基础入门NLP - 新闻文本分类”解体过程进行的记录，目前仅使用了textCNN模型进行预测，后续还会考虑使用LSTM进行对比。

赛题数据

赛题以新闻数据为赛题数据，数据集报名后可见并可下载。赛题数据为新闻文本，并按照字符级别进行匿名处理。整合划分出14个候选分类类别：财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐的文本数据。

赛题数据由以下几个部分构成：训练集20w条样本，测试集A包括5w条样本，测试集B包括5w条样本。为了预防选手人工标注测试集的情况，我们将比赛数据的文本按照字符级别进行了匿名处理。

解题思路：

官方给出了多种模型的解题方法，包括fastText、TextCNN、TF-IDF、TextRNN等。我按照官方教程跑通TF-IDF后发现得分只有0.87左右，尝试更改参数后提升不大，故考虑改用TextCNN进行预测。

目前使用的网络结构如下：

其中使用三种不同尺寸的fiter对文本数据进行卷积。

由于原始数据长度分布中位值大概在2000字符左右，作为初次试算，选择构建vocabulary的的最大字长取为1000字符。

第一次选择1w数据量进行训练和验证，其中训练集80%，结果如下，可见在40次迭代后训练集精度达到1左右，已经很难再继续下降了。此时考虑增加数据量至10w，并将学习率设置为随迭代梯度下降。目前训练到50epoch，使用官方提供的测试数据，打分为0.9328，排名大概60+。

精度收敛曲线

损失收敛曲线

发布于 55 分钟前

喜欢打酱油的老鸟

博客等级

码龄7年

博客专家认证

1423
原创

5938
点赞

3万+
收藏

6663
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

最新评论

SAP MM 带有Return标记的STO,不能创建内向交货单？
何敬帅: 步骤23的顺序可以反嘛？正常不应该是先退出去然后供应商才能收回来嘛
为什么我觉得Python烂的要死？
yh52052sb: 哈哈哈，在网上搜python好像不用{},第一个就是你这个文章诶，菜鸟路过，听不懂思密达
CIIS 2020专题论坛丨突破自然语言理解，找到人工智能出口
m0_59260274: 中国人早已在自然语言真正理解研究上取得重大突破原创 wangda红冰金话网 2025年02月26日 15:34 福建 1人黄培红，高级工程师，中国人工智能学会会员，发表学术论文10余篇，发现自然语言加工中的what-why理解效应，解决了作为人工智能核心的自然语言理解问题，取得世界级研究成果，应邀先后在ICIS2017与IWACIII2017国际会议上做学术报告及交流讨论。黄培红从事计算机工程技术工作30多年，曾研发并投产成功某银行第一个中间业务软件。他早年毕业于北京航空航天大学计算机科学与工程系，发表论文《自然语言理解的机器认知形式系统》，在什么是理解以及什么是自然语言理解方面研究取得原创性研究成果，解决了人工智能方面的世界性难题。其研究论文通过多模态关联解决自然语言理解问题，在世界范围引起互联网公司及学术界广泛关注，特别是近年来多模态语义理解已经成为人工智能的研究热点。目前chatgpt deepseek等等语言大模型都在往这个研究上靠，请周知。
SAP 金属行业实施项目的GAP之Metall Balance
georgefan2008: 截图为啥如此模糊呢，能分享一下报表的具体的设计思路吗，谢谢！
SAP QM 事务代码QA02取消以及反取消检验批
Jing--TuTu: 老师您好，发货单已经删掉，检验批的【取消批】按钮变成灰色，还有其他办法取消检验批吗

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。