文章目录 赛题理解 赛题 难点 分析 思路 数据分析 Task1:基于传统机器学习的文本分类 赛题理解 赛题 赛题链接 划重点: 字符级匿名处理(防止人工标注答案) 14个分类类别(0-13) 评价标准为类别f1_score的均值(越大越好) 难点 数据形式是匿名化字符,无法分词 分析 文本数据是典型的非结构化数据,可能涉及特征提取和分类模型两个部分 思路 TF-IDF + 机器学习分类器 FastText WordVec + 深度学习分类器 Bert词向量 数据分析 参考资料 作业解答: 1. 假设字符3750,字符9