短文本分类的步骤和疑问

1.对于短文本分类问题,它的主要特点是词空间很大,如果用词袋模型表示,会产生高纬稀疏向量,这给运算带来麻烦

2.短文本分类问题,它的 document 和 features 都很多,这也是文本分类问题共同的特点,短文本的短带来了稀疏,同时短文本也     有自己独特的特点,它有很明显的主谓宾结构,绝大多数情况下一句话就是一个document。

3.通常的文本分类问题的步骤为:

      a. 分词,去除停用词

      b. 提取特征和scaling

      c. 选择模型

      d. cross-validation and grid-seasrch

      e. 模型生成与预测

目前问题主要集中在提取特征方面。

在此之前,对于分词操作要不要加入特殊的正则匹配,如phone类别数据中有很多  打电话给幺八三四四五五五六三八 这样的数据  是否要匹配出这些号码数据,然后用一个词来替换如 电话号码  ,对于不易区分的类别,如 story 和 music ,这两者都是,我想听...  那么他们的区分在于具体想听的内容,如何去分辨宾语所指的到底是一个music还是一个story

特征提取,到底如何表示词,进一步,如何表示短文本? 显而易见的是如果采取one-hot 向量,用全部词空间大小的维度来表示,不太合理,词与词之间基于完全独立性假设。目前了解到的用word2vec 表示词,能够很好的压缩维度,并且能够很好的表示词之间的相似度,那么word2vec可以表示词,同样的思想用sentence2vec表示一句话。用它作为输入,但是会涉及到变长输入的问题。

另外,文本分类关注点是关键词,在本数据集中由于document就是一句话所以在这句话里面出现重复关键词的情况很少,我的意思是一个document里的词频似乎没有多大的作用。对于这样的一些词语:他们在其他类别中几乎不出现,而在本类别中的绝大多数文本中都出现,这样的词是最能够给定分类判别的

从关键词的角度出发,使用无监督的聚类,首先聚类出来那么几个主题,挑选出这样的关键词,用于辅助特征提取是否有益处,具体可以怎么实现,这是另外一个思考。能不能先分出来按照无监督聚类出来的类别,然后再在一些聚类里面再细分类别,比如可以先分出来music , news  ,weather 这样具有明显差异的大类,然后再在大类里面去区分,story 和 music 。alarm 和 schedule ,这样难以区分的小类。

 

 

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值