一套简单但完整的伪分布式大数据分析流程(一)(图文详解)，适用于Windows系统

大能猫与小完熊

已于 2022-09-07 09:53:59 修改

阅读量1.1k

点赞数 8

分类专栏：大数据分析文章标签：数据分析

于 2020-05-22 12:59:24 首次发布

原文链接：http://dblab.xmu.edu.cn/blog/1363-2/

版权

大数据分析专栏收录该内容

5 篇文章 0 订阅

订阅专栏

步骤一：Windows环境安装

非常感谢林子雨教授的淘宝双11数据分析与预测案例，本篇90%以上都是借用了林教授的教程过程，我不过将其高度整合起来并解决一些因为软件更新造成的代码不兼容或者软件不兼容的bug。

放上林教授的原地址，有兴趣的小伙伴可以去深入学习
淘宝双11数据分析与预测案例

林教授的案例很详细，但可能是时间久远原因，在实际操作中，林子雨教授的案例中有不少bug和软件不兼容的情况，所以此次整合修改了一下，并分享出来供大家学习参考。

本案例的所有实验都在Linux操作系统下完成，需要涉及到以下软件：

VMware Workstation Pro:15.5
Linux: Ubuntu16.04 64位
MySQL: 5.7.16
Hadoop: 2.7.1
Hive: 2.3.7
Sqoop: 1.4.6
Spark: 2.4.5
Eclipse: 2020-03
ECharts: 3.4.0
mysql-connector-java:5.1.49
tomcat:8.5.55
jdk:1.8

强烈建议版本与博主选择一致，否则很有可能出现不兼容的情况，我第一次跟着林子雨教授安装时就出现了一个超级bug，花了三天时间也没解决，后来重装系统把版本换了才没出现bug。所以尽量版本跟我选择一致。

所有所需软件链接：https://pan.baidu.com/s/1ovYL1O_89ZDDy5TCL6oB4Q
提取码：kh8b

好了，废话不多说，开工

1.安装VMware虚拟机

可以从我分享的百度云链接下载，也可以直接从官网下载

官网下载Workstation 15.5 Pro for Windows

确认电脑开启cpu虚拟化，查看是否开启的方法：

在底部任务栏右键打开任务管理器

win10如何开启虚拟化支持_win10开启cpu虚拟化的方法
在这里，选择“性能”标签，查看cpu的虚拟化是否启动
在这里插入图片描述
如果没有开启，则需进入BIOS手动开启

电脑如何开启cpu虚拟化

2.安装Ubuntu16.04 64位

打开VMware虚拟机，点创建新的虚拟机
在这里插入图片描述

下一步，注意：这个地址是你下载的Ubuntu16.04实际所在的地址，你把文件下载到哪就选哪

在这里插入图片描述

下一步，全名：hadoop，用户名也是hadoop，这样方便跟着教程操作，密码也用hadoop，方便记忆，不然忘了密码比较麻烦
在这里插入图片描述
虚拟机名称随便起，不过位置要自己选好，最好装在空间大的盘，真心不建议装c盘

最大磁盘大小建议为30G，以防不够用

下一步自定义硬件
内存大小看实际情况而定，只要不超出最大建议内存就行。不知道自己内存多大的就按建议内存，如果硬件在8G内存以及以上的话，建议设为4G或者以上，毕竟内存越大能打开的任务越多在这里插入图片描述

处理器数量和内核各给两个就差不多了，具体多少还是根据实际硬件而定在这里插入图片描述

网络用桥接复制网络，这样可以让虚拟机连上网络在这里插入图片描述
关闭窗口，然后确定完成创建虚拟机

虚拟机安装时间取决于电脑配置，静等片刻，待安装完成，在窗口中输入用户密码，刚才设置的为hadoop
在这里插入图片描述
接下来设置中文，登录进去，右上角设置，点击System Settings

依次点击
输入当前用户密码
等待安装，如果出现系统更新界面，选更新
依次点击
输入密码等待安装
去这个界面，更换为汉语（中国）并应用至全局
在这里插入图片描述
再去language把汉语长按拖至最顶部并应用全局

然后重启

可以看到，系统语言已经变为中文

最后文件夹会询问是否更新名称，打钩不要再次询问我并确定更新
另外，为了提高Ubuntu商店下载速度，可以设置为阿里云的服务器
在这里插入图片描述

安装Chrome

如果不习惯自带的Firefox可以下载Chrome，否则跳过此步骤
打开自带的Firefox 在这里插入图片描述输入Chrome下载地址 http://www.ubuntuchrome.com/，下载并安装
输入用户密码完成安装再去左上角所有程序，搜索chrome，拖至左边快捷方式

接下来开始准备安装hadoop和一系列环境