唯品会数据分析

本文介绍了通过微博爬虫获取唯品会用户评论,进行数据清洗和情感分析,重点关注商品质量、售后服务和物流快递。使用SnowNLP库进行中文分词和情感分析,通过词云图识别关键词,并应用层次分析法和四分图进行深入研究。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

研究思路
确定好研究唯品会后,就开始要确定数据来源,了解到身边群体普遍使用淘宝和京东,对于唯品会的了解只停留在前段时间的唯品会假货事件和巨额亏损,导致从身边群体搜集数据变得格外困难,所以我们决定从微博入手,编程制作爬虫来爬取微博评论来进行分析。
在编好基本语言后,我们对微博可以爬取的数据维度进行讨论分析,最后重点开始分析需要的数据维度,最一开始的微博文本(用户发表的言论)是必须的,团队讨论一段时间后决定了一下几个维度:用户ID、信息来源、发布时间、文本内容、评论数、转发数、阅读数。
确定好了维度,我们团队就开始爬取数据,得到了近一个月用户发布的所有数据,开始对文本进行数据清洗,将无用的新闻清理出去,得到了由文本数据组成的数据。
这时候开始文本分析,由于文本数据是杂乱无章的,所以需要提取关键词,这时候我们对数据进行可视化,制作出词云图,在词云图的帮助下,所有词出现的频率和高频词汇全都一览无余,然后我们队员开始对高频词汇进行分析,重点在那些词汇中需要重点研究的方向。讨论过后,找到了几个关键词,顺利确定了研究方向,这些关键词分别是:商品质量 售后服务 物流快递。

在找到关键词后,开始对关键词进行假设,提出了这几个可能的地方。商品属性:质量、假货、性价比、商品更新速度、商品信息详情;物流支持:物流速度、安全(物品安全、客户骚扰);顾客服务:投诉处理、退换货。然后就开始了数据打标签。
考虑到打标签过程过于复杂,所以就找了个捷径,利用微博搜索功能,搜索栏的搜索内容为“唯品会+关键词”,通过微博进行一轮数据筛选,然后再进行一次数据爬取,得到了

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值