特征提取方法__文本分类

Model

优点

不足

Weighted Words

·易于计算

·易于计算文档间相似度

·提取说明性词汇的basic metric

·可以处理未知词

·不能捕获词语位置信息(句法)

·不能捕获词语意义(语义)

·常用词影响结果(am, is)

TF-IDF

·易于计算

·易于计算文档间相似度

·提取说明性词汇的basic metric

·常用词不影响结果

·不能捕获词语位置信息(句法)

·不能捕获词语意义(语义)

Word2Vec

(Google, 2013)

·可以捕获词语位置信息(句法)

·可以捕获词语意义

·不能捕获词语多义性

·不能捕获语料库外的词汇

GloVe(Pre-Trained)

·可以捕获词语位置信息(句法)

·可以捕获词语意义

·在大规模语料库上训练

·不能捕获词语多义性

·不能捕获语料库外的词汇

·内存开销大

GloVe(Trained)

(stanford, 2014)

·词向量可快速捕获向量空间中的次线性关系(性能优于Word2vec)

·常用词权重低

·不能捕获词语多义性

·不能捕获语料库外的词汇

·内存开销大

·需要大规模语料库用语训练

FastText

(facebook, 2016)

·可以处理稀有词

·利用字符级别n-gram处理语料库外的词语

·不能捕获词语多义性

·内存开销大

·相比GloVe和Word2Vec,计算成本高

Contextualized

Word

Representations

(ELMo, NAACL18 Best Paper, 2018)

·可以捕获单词在文中的含义(结合上下文,处理一词多义)

·内存开销大

·显著提高下游任务性能,但计算成本高

·LSTM和feedforward layers需要额外word embedding

·不能捕获语料库外的词汇

·只处理句子或文本级别

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值