NLP实践项目一:基于softmax regression的文本多分类

本文介绍了一个NLP项目,使用softmax回归进行文本情感的多分类。通过Bag-of-Words和N-gram作为特征表示,利用词典构建特征向量,并详细解析了模型的工作原理,包括输入数据、标签转化、概率计算和交叉熵损失函数。最后,通过梯度下降进行模型训练。
摘要由CSDN通过智能技术生成

直接看代码:github传送门
数据集Classify the sentiment of sentences from the Rotten Tomatoes dataset
特征表示:Bag-of-Word,N-gram

  • Bag-of-Word:词袋模型,根据语料建立词典vocab,词典中每个单词有一个index,M为词典的大小,将句子表示为一个M维向量,每一维的值对应该索引对应的单词在句子中出现与否或者出现的次数。这种特征表示不考虑单词出现的先后顺序,丢失了重要的语义信息。
  • N-gram:相比于词袋模型,N-gram将N个单词联合起来看作一个特征,例如2-gram,则语料库中所有两个挨着出现过的单词联合看作一个特征,相比于词袋模型,可把N-gram理解为在构建词典时将多个单词联合出现看作特征,最后构建特征向量时和词袋模型相同。这种特征表示考虑了部分单词的先后顺序,随着N的增大词典的规模会暴增,所以这样的处理方式不能捕获长程依赖。

模型详解:输入数据 X X X,维度NxM,每一行是一个样本,y是X中N个样本对应的标签,为了方便计算将标签转化为独热码,维度NxK,参数W,维度KxM,(下面用 W i W_i Wi表示 W [ i ] W[i] W[i]),X中句子共有K个类别,第 i i i个样本被预测为c类的概率计算公式如下:
y ^ i c = P ( y i = c ∣ X i ) = e x p ( W c X i T ) ∑ m = 1 K e x p ( W m X i T ) \hat{y}_{ic}=P(y_i=c|X_i)=\frac{exp(W_cX_i^T)}{\sum_{m=1}^{K}exp(W_mX_i^T)} y^ic=P(yi=cXi

评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值