tfidf关键词提取_基于深度学习的个性化商品评论标签提取

本文探讨商品评论标签提取问题,区别于关键词抽取,它关注用户对产品特性的评论。通过实验,V1.0采用TextCNN模型,V2.0结合人工规则和TextCNN,实现半监督个性化标签。使用友商数据训练模型,但受限于不同商品类别,需自定义规则。词性、依存关系和规则结合提升准确性,同时利用word2vec进行标签归一化。最后,结合规则和深度学习模型提高召回率。
摘要由CSDN通过智能技术生成

3df5b5cf4405d549c5d4a9d8cdaaaccf.png

商品评论标签提取作为商品评论中的一个比较有意思的问题。评论标签提取的主要任务是从评论中了解到用户对产品的哪些功能、属性进行了怎样的评论,并抽取成简短有效的信息。

关键词提取Vs评论标签提取

商品标签提取和关键词的抽取还不是同样的NLP问题,关键词提取更侧重于文章或者评论本身表达的意义,关键词窥探整个文本的主题思想,实验证明像TextRank, TFIDF等传统的方法抽取出来的关键词和评论观点相差很远。

目前我们实验了两版抽取过程,V1.0主要是基于深度学习TextCNN分类模型,V2.0主要是人工强规则+TextCNN模型,我们定义为半监督的个性化标签抽取。哈哈哈,名字比较忽悠人。。。。

标签提取,可以理解是一个多分类问题。我们首先想到了现在最火的深度学习模型FastText或者TextCNN,做分类准确率高,速度也要保证。但是在这个过程中需要大量的样本,自己标注,好像不太现实。首先我们想到了友商的评论数据,在此特意感谢一下友商贡献的标注数据。我们爬取了大概700w带标签的评论数据,针对有些数据不太符合我们的要求,剔除其中的一些。经过整理后,我们使用TextCNN模型(TextCNN会在下面的文章进行介绍)做多分类处理。

样本大概为:“快递送货较快,满意。空调外观大气、美观,个人非常喜欢,老婆也觉得很不错。安装的位置也很合适ÿ

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值