1.对于短文本分类问题,它的主要特点是词空间很大,如果用词袋模型表示,会产生高纬稀疏向量,这给运算带来麻烦
2.短文本分类问题,它的 document 和 features 都很多,这也是文本分类问题共同的特点,短文本的短带来了稀疏,同时短文本也 有自己独特的特点,它有很明显的主谓宾结构,绝大多数情况下一句话就是一个document。
3.通常的文本分类问题的步骤为:
a. 分词,去除停用词
b. 提取特征和scaling
c. 选择模型
d. cross-validation and grid-seasrch
e. 模型生成与预测
目前问题主要集中在提取特征方面。
在此之前,对于分词操作要不要加入特殊的正则匹配,如phone类别数据中有很多 打电话给幺八三四四五五五六三八 这样的数据 是否要匹配出这些号码数据,然后用一个词来替换如 电话号码 ,对于不易区分的类别,如 story 和 music ,这两者都是,我想听... 那么他们的区分在于具体想听的内容,如何去分辨宾语所指的到底是一个music还是一个story
特征提取,到底如何表示词,进一步,如何表示短文本? 显而易见的是如果采取one-hot 向量,用全部词空间大小的维度来表示,不太合理,词与词之间基于完全独立性假设。目前了解到的用word2vec 表示词,能够很好的压缩维度,并且能够很好的表示词之间的相似度,那么word2vec可以表示词,同样的思想用sentence2vec表示一句话。用它作为输入,但是会涉及到变长输入的问题。
另外,文本分类关注点是关键词,在本数据集中由于document就是一句话所以在这句话里面出现重复关键词的情况很少,我的意思是一个document里的词频似乎没有多大的作用。对于这样的一些词语:他们在其他类别中几乎不出现,而在本类别中的绝大多数文本中都出现,这样的词是最能够给定分类判别的。
从关键词的角度出发,使用无监督的聚类,首先聚类出来那么几个主题,挑选出这样的关键词,用于辅助特征提取是否有益处,具体可以怎么实现,这是另外一个思考。能不能先分出来按照无监督聚类出来的类别,然后再在一些聚类里面再细分类别,比如可以先分出来music , news ,weather 这样具有明显差异的大类,然后再在大类里面去区分,story 和 music 。alarm 和 schedule ,这样难以区分的小类。