天池:零基础入门NLP - 新闻文本分类
最新推荐文章于 2023-05-18 10:31:58 发布
本文从赛题理解出发,介绍了一个字符级匿名处理的新闻文本分类任务,涉及14个类别,评价标准是f1_score的均值。面对无法分词的匿名字符数据,提出了使用TF-IDF、FastText、WordVec和Bert等方法进行特征提取和分类。文章还包含了数据初步分析,如平均句子数统计,并预告了后续将探讨基于传统机器学习的文本分类方法。
摘要由CSDN通过智能技术生成