在正式开始之前,我不得不吐槽一句,这是个坑,这是个坑,这是个大坑啊。
本系列主要描述的是我是如何从淘宝采集数据,对数据做预处理,再把数据进行可视化的。主要是为了记录和解决问题,代码和算法方面不做过多赘述。
(一)数据采集
淘宝页面是动态加载的,因此若想写个什么Python脚本之类的,本小白还真是能力不够,项目中的数据采集主要使用软件来进行采集(水淼软件---一个著名的电商信息采集软件,好像有打广告的嫌疑(逃)),采集的内容如下图所示
选择这三个字段是之前对其他字段(如评论区买家的图片)做过很过测试,测试结果均不理想,最后分析可以从这三方面的因素直接分析,或挖掘会更简洁明了。
PS:我们使用过八爪鱼采集器,Python脚本,R语言脚本均可以成功采集到数据,你也可以尝试使用别的方式。
(二)填坑开始
主要是处理一些缺失值等,从这个时候开始,问题就出现了。
问题一:Rstudio导入数据时对中文的兼容性并不是