商品评论标签提取作为商品评论中的一个比较有意思的问题。评论标签提取的主要任务是从评论中了解到用户对产品的哪些功能、属性进行了怎样的评论,并抽取成简短有效的信息。
关键词提取Vs评论标签提取
商品标签提取和关键词的抽取还不是同样的NLP问题,关键词提取更侧重于文章或者评论本身表达的意义,关键词窥探整个文本的主题思想,实验证明像TextRank, TFIDF等传统的方法抽取出来的关键词和评论观点相差很远。
目前我们实验了两版抽取过程,V1.0主要是基于深度学习TextCNN分类模型,V2.0主要是人工强规则+TextCNN模型,我们定义为半监督的个性化标签抽取。哈哈哈,名字比较忽悠人。。。。
标签提取,可以理解是一个多分类问题。我们首先想到了现在最火的深度学习模型FastText或者TextCNN,做分类准确率高,速度也要保证。但是在这个过程中需要大量的样本,自己标注,好像不太现实。首先我们想到了友商的评论数据,在此特意感谢一下友商贡献的标注数据。我们爬取了大概700w带标签的评论数据,针对有些数据不太符合我们的要求,剔除其中的一些。经过整理后,我们使用TextCNN模型(TextCNN会在下面的文章进行介绍)做多分类处理。
样本大概为:“快递送货较快,满意。空调外观大气、美观,个人非常喜欢,老婆也觉得很不错。安装的位置也很合适ÿ