NLP竞赛综述

最新推荐文章于 2024-07-13 23:08:43 发布

KODGV

最新推荐文章于 2024-07-13 23:08:43 发布

阅读量1.5k

点赞数 1

分类专栏： NLP竞赛

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_34661230/article/details/86515342

版权

本文总结了NLP竞赛中的关键步骤，包括文本分类和情感分析。强调了深度学习在NLP竞赛中的重要性，特别是预处理、词向量和模型设计。提出了使用词向量拼接、语言模型预训练、长短文本处理策略等技巧，并分享了关于特征抽取和预处理的见解。

摘要由CSDN通过智能技术生成

文章目录

综述

如何到top5%？NLP文本分类和情感分析竞赛总结

在这里插入图片描述
就像他说的那样
机器学习提取的是如tf-idf的具体(concrete)特征
深度学习提取的是如词向量的抽象(abstract)特征
对于分类器，传统的朴素贝叶斯分类、SVM、XGB、LGB算法，在NLP竞赛中都不太好使，因此NLP比赛里用到的基本都是深度学习。竞赛中最重要的两步就是：

做好文本表示工作，可以简单理解成词向量训练，即做好 “数据–>信息” 的流程
做好分类器，可以理解成模型的设计，即做好 “信息–>知识” 的流程

语义粒度与文本长度
语义粒度是指对文本是否分词，以词还是以字来表示一个句子的输入特征。一般来讲，我们都需要对他们进行尝试，只要效果不相差太多，我们都需要保留，为最后的模型融合增加差异性。

文本长度我一般用占比95%或者98%的长度最为最大长度，对超过最大长度的句子进行截取，不足的进行填充(padding)。另外就是对句子进行padding的时候，keras补0默认是补在前面，我想了下这应该是RNN结构的隐藏层参数空间最开始初始化为0，有个

最低0.47元/天解锁文章

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

博客等级

码龄8年

27
原创

42
点赞

68
收藏

5
粉丝

关注

私信

热门文章

分类专栏

leetcode 6篇
cs224n 9篇
NLP 6篇
NLP竞赛 6篇
架构
BUG区 3篇
项目管理 2篇

最新评论

训练的LOSS一直为0
emergency_rose: 你的结论是对的，但是最后两句不对，只有一维输出的话，计算loss的时候，只会考虑true label=0的loss，也就是-log(1)，label=0的GT概率也是1的
训练的LOSS一直为0
Only~you233: 牛啊
训练的LOSS一直为0
流氓本性: 谢谢！
TypeError: __int__ returned non-int (type NoneType)
summer_leeD: 赞一个，onnx转tensorflow模型也遇到了这个问题，不能使用动态batch
OpenNER关系抽取代码阅读
wohushihaoren: 他的auc指标是sklearn计算出来的，还有一个大问题是保存计算图的时候，每保存一次图都会变大，数据大了就会超计算图2G的限制。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。