这个作业的要求来自:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3339。
首先,我是分析B站最火番剧剧迷们的评论,也就是我前面的文章------爬虫大作业分析的数据。下面开始进行HIVE分析。
1.数据导入。因为我是用自己的数据进行分析,不免就要进行csv导出,其中用到了pandas,具体代码加入到爬虫数据中即可。
这是我自己的excel数据:
将自己的csv导入到bigdatacase里面,下载后直接移动和粘贴即可。然后测试一下自己是否导入成功,看看自己的路径下面是否有自己的csv文件。我的路径是 /usr/local/bigdatacase。