nlp文本分类Task3--基于机器学习的文本分类

最新推荐文章于 2021-11-01 23:34:15 发布

佛系

最新推荐文章于 2021-11-01 23:34:15 发布

阅读量335

点赞数

分类专栏： NLP 文章标签：算法数据挖掘机器学习 python 深度学习

本文链接：https://blog.csdn.net/weixin_41667774/article/details/107588440

版权

本文介绍了在nlp文本分类Task3中，如何使用机器学习方法对文本进行表示，如One-hot和Bag of Words。通过实验，测试集的f1_score达到0.8224，线上成绩为0.8178，最终线上表现为0.8990，探讨了线上线下结果差异可能的原因，并提出可尝试xgboost和randomforest等其他算法。

摘要由CSDN通过智能技术生成

nlp文本分类Task3–基于机器学习的文本分类

学习目标

1.学会TF-IDF的原理和使用
2.使用sklearn的机器学习模型完成文本分类

文本表示方法 Part1

在机器学习算法的训练过程中，假设给定 $N$ 个样本，每个样本有 $M$ 个特征，这样组成了 $N \times M$ 的样本矩阵，然后完成算法的训练和预测。同样的在计算机视觉中可以将图片的像素看作特征，每张图片看作hight×width×3的特征图，一个三维的矩阵来进入计算机进行计算。

但是在自然语言领域，上述方法却不可行：文本是不定长度的。文本表示成计算机能够运算的数字或向量的方法一般称为词嵌入（Word Embedding）方法。词嵌入将不定长的文本转换到定长的空间内，是文本分类的第一步。

One-hot

这里的One-hot与数据挖掘任务中的操作是一致的，即将每一个单词使用一个离散的向量表示。具体将每个字/词编码一个索引，然后根据索引进行赋值。

One-hot表示方法的例子如下：

句子1：我 爱 北 京 天 安 门
句子2：我 喜 欢 上 海

首先对所有句子的字进行索引，即将每个字确定一个编号：

{
   
	'我': 1, '爱': 2, '北': 3, '京': 4, '天': 5,
  '安': 6, '门': 7, '喜': 8, '欢': 9, '上': 10, '海': 11
}

在这里共包括11个字，因此每个字可以转换为一个11维度稀疏向量：

我：[1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
爱：[0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0]
...
海：[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1]

Bag of Words

Bag of Words（词袋表示），也称为Count Vectors，每个文档的字/词可以使用其出现次数来进行表示。

最低0.47元/天解锁文章

佛系

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录