创新点
无监督的电商生成评论总结rating-wise and aspect-wise summaries from reviews.
方法
用SQuAD 1.1 finetune BERT/DistilBERT。
BERT 然后两个线性层预测开始和结束
观点抽取
1. 人工抽取商品特征,只使用计算机、平板、台式机
一共十个特征
Display, Memory, Speaker, Sound, Processor, WiFi, Battery, Brand, Operating System, and Camera
2. 构造两类问题,在十个特征上提问,用SQuAD的方法抽取观点。
How is [feature]?
What is opinion on [feature]?
即 评论 r = (r1,...,rm). 问题q = (q1,...,qn),输出是评论中的span,作为观点。
总结模型
用了两个 Copycat和DistilBART
DistilBART-12-6-cnn
在CNN/Dailymail和Extrteme Summarization 数据集上训
Copycat公式
c是产品的向量表示,avg得到c*,z是评论的向量表示,avg得到z*
利用pointer-generator network 网络生成评论,
pointer-generator network 保持了两个词概率分布,
1. 假设词是从固定的词表中选的
2. 捕获从别的评论中复制词的概率
整体框架
验证方法
情感准确度
在Amazon Reviews Dataset’s Electronic Category 上训练情感分类器,
BERT+dense(6分类,0-5,表示拥护对产品的打分)
对模型的打分,是综合预测的情感得分和评论的平均得分之间的差异。
是第i个总结计算的情感得分,是第j个评论的排名,K是用于生成总结的评论数,N是总共的总结数
即用模型对总结summary和生成这个总结summary对应的reviews进行情感打分,希望生成的总结的情感和生成这个总结的review平均情感相似。
ROUGE Scores
为了衡量模型生成的总结中包含有评论中相似的信息。用ROUGE-1(unigram的重合度)和ROUGE-2(bigram 的重合度)来衡量。
s表示summary总结,x表示review评论。
实验