短文本分类的步骤和疑问

最新推荐文章于 2023-07-09 11:00:00 发布

qxdoit

最新推荐文章于 2023-07-09 11:00:00 发布

阅读量1.1k

点赞数 1

分类专栏：自然语言处理

本文链接：https://blog.csdn.net/qxdoit/article/details/89927850

版权

自然语言处理专栏收录该内容

13 篇文章 0 订阅

订阅专栏

1.对于短文本分类问题,它的主要特点是词空间很大，如果用词袋模型表示，会产生高纬稀疏向量，这给运算带来麻烦

2.短文本分类问题，它的 document 和 features 都很多，这也是文本分类问题共同的特点，短文本的短带来了稀疏，同时短文本也有自己独特的特点，它有很明显的主谓宾结构，绝大多数情况下一句话就是一个document。

3.通常的文本分类问题的步骤为:

a. 分词，去除停用词

b. 提取特征和scaling

c. 选择模型

d. cross-validation and grid-seasrch

e. 模型生成与预测

目前问题主要集中在提取特征方面。

在此之前，对于分词操作要不要加入特殊的正则匹配，如phone类别数据中有很多 打电话给幺八三四四五五五六三八 这样的数据 是否要匹配出这些号码数据，然后用一个词来替换如 电话号码，对于不易区分的类别，如 story 和 music ，这两者都是，我想听... 那么他们的区分在于具体想听的内容，如何去分辨宾语所指的到底是一个music还是一个story

特征提取，到底如何表示词,进一步，如何表示短文本? 显而易见的是如果采取one-hot 向量，用全部词空间大小的维度来表示，不太合理，词与词之间基于完全独立性假设。目前了解到的用word2vec 表示词，能够很好的压缩维度,并且能够很好的表示词之间的相似度，那么word2vec可以表示词，同样的思想用sentence2vec表示一句话。用它作为输入，但是会涉及到变长输入的问题。

另外，文本分类关注点是关键词，在本数据集中由于document就是一句话所以在这句话里面出现重复关键词的情况很少，我的意思是一个document里的词频似乎没有多大的作用。对于这样的一些词语:他们在其他类别中几乎不出现，而在本类别中的绝大多数文本中都出现，这样的词是最能够给定分类判别的。

从关键词的角度出发，使用无监督的聚类，首先聚类出来那么几个主题，挑选出这样的关键词，用于辅助特征提取是否有益处，具体可以怎么实现，这是另外一个思考。能不能先分出来按照无监督聚类出来的类别，然后再在一些聚类里面再细分类别，比如可以先分出来music ， news ，weather 这样具有明显差异的大类，然后再在大类里面去区分，story 和 music 。alarm 和 schedule ，这样难以区分的小类。

qxdoit

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
短文本分类的步骤和疑问

1.对于短文本分类问题,它的主要特点是词空间很大，如果用词袋模型表示，会产生高纬稀疏向量，这给运算带来麻烦2.短文本分类问题，它的 document 和 features 都很多，这也是文本分类问题共同的特点，短文本的短带来了稀疏，同时短文本也有自己独特的特点，它有很明显的主谓宾结构，绝大多数情况下一句话就是一个document。3.通常的文本分类问题的步骤为: a...
复制链接

扫一扫