文本的特征工程

文本分类实战系列(一):特征工程

https://blog.csdn.net/John_xyz/article/details/79602506

Softmax 公式 + 交叉熵损失

https://blog.csdn.net/behamcheung/article/details/71911133

word2vec的原理:用词出现的上下文来表示这个词,上下文越接近的词之间的语义相似性越高。

例如,上一小节中举到的例子,“话筒”和“麦克风”两者的上下文可能非常接近,因此会被认为是语义接近的。(不过语义接近并不代表含义接近,例如“黑色”和“白色”的上下文是相似的,但所代表的含义可能却是相反的)。

word2vec和GloVe两者的思想是类似的,都是用词的上下文来表示这个词,但是用的方法不同:word2vec是predict-based,用一个3层的NN模型来预测词的上下文(或者反过来),词向量是训练过程的中间产物;而GloVe则是count-based的方法,通过对共现词矩阵做降维来获取词的向量。两者在效果上相差不大,但GloVe模型的优势在于矩阵运算可以并行化,这样训练速度能加快。

http://www.jeyzhang.com/text-classification-in-action.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值