电动牙刷评论主要涉及外观、清洁力度、便携性、噪音振动、智能、操控难度等,分类方法详见下方R代码。结合爬虫得到的评价星级,可了解各类评论的占比差异,如下图可知电池续航、噪音振动的五星好评比例低于其它角度(83%和78%)。
library(tidyr)
library(gmodels)
data<-read.csv("电动牙刷评论20230325.csv")
data<-data[!is.na(data$评价内容),]
data<-data[!duplicated(data$评价内容),] #去重
data1<-separate_rows(data,评价内容,sep = "\n") #评论文本分段
data1$外观<-grepl('颜色|外观|外形|外表|美观|美丽|简洁|
大方|体积|颜值|漂亮|好看|工艺',data1$评价内容)
CrossTable(data1$评价星级,data1$外观,prop.r = F,prop.t=F,
prop.chisq=F,format = "SPSS",chisq = T)
data1$清洁<-grepl('清洁|干净',data1$评价内容)
CrossTable(data1$评价星级,data1$清洁,prop.r = F,prop.t=F,
prop.chisq=F,format = "SPSS",chisq = T)
data1$续航<-grepl('续航|电池|充电|电力|没电',data1$评价内容)
CrossTable(data1$评价星级,data1$续航,prop.r = F,prop.t=F,
prop.chisq=F,format = "SPSS")
data1$携带<-grepl('便携|携带|外出|出差',data1$评价内容)
CrossTable(data1$评价星级,data1$携带,prop.r = F,prop.t=F,
prop.chisq=F,format = "SPSS")
data1$噪音振动<-grepl('噪音|振动|震动|音量|声音|震',data1$评价内容)
CrossTable(data1$评价星级,data1$噪音振动,prop.r = F,prop.t=F,
prop.chisq=F,format = "SPSS")
data1$智能<-grepl('压感|智能|得分|APP|App|app|算法|数据|分数',data1$评价内容)
CrossTable(data1$评价星级,data1$智能,prop.r = F,prop.t=F,
prop.chisq=F,format = "SPSS")
data1$操控<-grepl('操控|控制|掌握|把握',data1$评价内容)
CrossTable(data1$评价星级,data1$操控,prop.r = F,prop.t=F,
prop.chisq=F,format = "SPSS",chisq = T)
#其它内容
data1$无线充电<-grepl('无线|接触式',data1$评价内容)
data1$彩屏<-grepl('彩屏|屏幕|显示屏',data1$评价内容)
data1$消毒<-grepl('消毒|杀菌',data1$评价内容)
data1$防水<-grepl('防水|漏水|渗水',data1$评价内容)