用R进行电商美容仪爬虫数据的清洗、拆分、分析

美容仪爬虫包含产品参数爬虫和用户评论爬虫

第一步:合并多个月的产品参数爬虫数据

setwd("C:/Users/美容仪")
temp<-list.files(pattern = "*.csv")

dat <- data.frame()
for (i in 1:12) {
  dat <- rbind(dat, read.csv(temp[i]))
}
data<-dat

library(stringr)
data$标题<-gsub('[\n\r]', '', data$标题)
data$标题<-gsub(' ', '', data$标题,fixed = T)
colnames(data)

第二步:拆分产品参数

data$商品介绍<-gsub(' ', '', data$商品介绍,fixed = T)
data$品牌<-str_extract_all(data$商品介绍,"(?<=品牌:).+(?=\\n)")
data$商品毛重<-str_extract_all(data$商品介绍,"(?<=商品毛重:).+(?=\\n)")
data$商品产地<-str_extract_all(data$商品介绍,"(?<=商品产地:).+(?=\\n)")
data$功效<-str_extract_all(data$商品介绍,"(?<=功效:).+(?=\\n)")
data$适用部位<-str_extract_all(data$商品介绍,"(?<=适用部位:).+(?=\\n)")
data$特色功能<-str_extract_all(data$商品介绍,"(?<=特色功能:).+(?=\\n)")
data$类型<-str_extract_all(data$商品介绍,"(?<=类型:).+(?=\\n)")

data$字段6<-gsub(' ', '', data$字段6,fixed = T)
data$字段7<-gsub(' ', '', data$字段7,fixed = T)
data$字段8<-gsub(' ', '', data$字段8,fixed = T)
data$字段9<-gsub(' ', '', data$字段9,fixed = T)
data$字段10<-gsub(' ', '', data$字段10,fixed = T)
data$字段合并<-paste(data$字段6,data$字段7,data$字段8,data$字段9,data$字段10,sep="\n")

#字段6-10
data$产品净重<-str_extract_all(data$字段合并,"(?<=产品净重).+(?=\\n)")
data$额定功率<-str_extract_all(data$字段合并,"(?<=额定功率).+(?=\\n)")
data$额定电压<-str_extract_all(data$字段合并,"(?<=额定电压).+(?=\\n)")
data$加热温度<-str_extract_all(data$字段合并,"(?<=加热温度).+(?=\\n)")
data$产品尺寸<-str_extract_all(data$字段合并,"(?<=产品尺寸).+(?=\\n)")
data$单次使用时长<-str_extract_all(data$字段合并,"(?<=单次使用时长).+(?=\\n)")
data$充电时间<-str_extract_all(data$字段合并,"(?<=充电时间).+(?=\\n)")
data$核心技术<-str_extract_all(data$字段合并,"(?<=核心技术).+(?=\\n)")
data$电源方式<-str_extract_all(data$字段合并,"(?<=电源方式).+(?=\\n)")
data$上市时间<-str_extract_all(data$字段合并,"(?<=\n\n\n上市时间).+(?=\\n)")

colnames(data)
data1<-data[,c(1,2,3,4,6,12,13:20,22:31)]

第三步:评论爬虫数据汇总及分析

dat <- data.frame()
for (i in 1:7) {
  dat <- rbind(dat, read.csv(temp[i]))
}
dat<-unique(dat)
data2<-subset(dat,dat$字段1 !="")

data2$外观及包装<-grepl('颜色|外观|外形|外表|美观|美丽|简洁|
               大方|体积|颜值|漂亮|好看|工艺|做工|包装|质感|手感',data2$评论文本)
data2$功效及质量<-grepl('功效|效果|好用|好一点|质量',data2$评论文本)
data2$物流<-grepl('物流|快递|送货',data2$评论文本)
data2$售后及客服<-grepl('售后|客服|态度|服务',data2$评论文本)
data2$操作<-grepl('操作|按键|静音|抓力|操控',data2$评论文本)
data2$场景<-grepl('场景|外出|医院|美容院|家里',data2$评论文本)

第四步:导出所需的数据到

openxlsx::write.xlsx(data1,"beauty device - 参数.xlsx")
writexl::write_xlsx(data2,"beauty device - 评论.xlsx")

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值