天池：零基础入门NLP - 新闻文本分类

最新推荐文章于 2023-05-18 10:31:58 发布

七七仔

最新推荐文章于 2023-05-18 10:31:58 发布

阅读量348

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_35649596/article/details/107501925

版权

本文从赛题理解出发，介绍了一个字符级匿名处理的新闻文本分类任务，涉及14个类别，评价标准是f1_score的均值。面对无法分词的匿名字符数据，提出了使用TF-IDF、FastText、WordVec和Bert等方法进行特征提取和分类。文章还包含了数据初步分析，如平均句子数统计，并预告了后续将探讨基于传统机器学习的文本分类方法。

摘要由CSDN通过智能技术生成

文章目录

赛题理解
- 赛题
- 难点
- 分析
- 思路
数据分析
Task1：基于传统机器学习的文本分类

赛题理解

赛题

划重点：

字符级匿名处理（防止人工标注答案）
14个分类类别（0-13）
评价标准为类别f1_score的均值（越大越好）

难点

数据形式是匿名化字符，无法分词

分析

文本数据是典型的非结构化数据，可能涉及特征提取和分类模型两个部分

思路

TF-IDF + 机器学习分类器
FastText
WordVec + 深度学习分类器
Bert词向量

数据分析

作业解答：

1. 假设字符3750，字符9

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

七七仔 CSDN认证博客专家 CSDN认证企业博客

码龄8年

2: 原创

141万+: 周排名

50万+: 总排名

1126: 访问

: 等级

21: 积分

1: 粉丝

0: 获赞

1: 评论

0: 收藏

私信

关注

热门文章

最新评论

Python学习笔记
「已注销」: 博主写得很不错，分享是一种美德。大大的赞！加油。也希望博主坚持写下去。

最新文章

Python学习笔记

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。