在正式开始之前,我不得不吐槽一句,这是个坑,这是个坑,这是个大坑啊。
本系列主要描述的是我是如何从淘宝采集数据,对数据做预处理,再把数据进行可视化的。主要是为了记录和解决问题,代码和算法方面不做过多赘述。
(一)数据采集
淘宝页面是动态加载的,因此若想写个什么Python脚本之类的,本小白还真是能力不够,项目中的数据采集主要使用软件来进行采集(水淼软件---一个著名的电商信息采集软件,好像有打广告的嫌疑(逃)),采集的内容如下图所示

选择这三个字段是之前对其他字段(如评论区买家的图片)做过很过测试,测试结果均不理想,最后分析可以从这三方面的因素直接分析,或挖掘会更简洁明了。
PS:我们使用过八爪鱼采集器,Python脚本,R语言脚本均可以成功采集到数据,你也可以尝试使用别的方式。
(二)填坑开始
主要是处理一些缺失值等,从这个时候开始,问题就出现了。
问题一:Rstudio导入数据时对中文的兼容性并不是很好,此时你需要调整Rstudio的设置,如下图

本文记录了使用R语言的shiny框架搭建网站过程中遇到的数据采集、Rstudio编码问题、包安装问题、跨平台迁移问题以及本地到外网访问的解决方案,包括数据采集工具、Rstudio设置、Linux环境下的字符编码问题、shinydashboard包安装、本地服务器配置和外网访问等。
最低0.47元/天 解锁文章
1138

被折叠的 条评论
为什么被折叠?



