天池:零基础入门NLP - 新闻文本分类

本文从赛题理解出发,介绍了一个字符级匿名处理的新闻文本分类任务,涉及14个类别,评价标准是f1_score的均值。面对无法分词的匿名字符数据,提出了使用TF-IDF、FastText、WordVec和Bert等方法进行特征提取和分类。文章还包含了数据初步分析,如平均句子数统计,并预告了后续将探讨基于传统机器学习的文本分类方法。
摘要由CSDN通过智能技术生成

赛题理解

赛题

赛题链接

划重点

  • 字符级匿名处理(防止人工标注答案)
  • 14个分类类别(0-13)
  • 评价标准为类别f1_score的均值(越大越好)

难点

数据形式是匿名化字符,无法分词

分析

文本数据是典型的非结构化数据,可能涉及特征提取分类模型两个部分

思路

  1. TF-IDF + 机器学习分类器
  2. FastText
  3. WordVec + 深度学习分类器
  4. Bert词向量

数据分析

参考资料

作业解答

1. 假设字符3750,字符9

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值