担心自己遗忘,便做此纪录。
普通的数据分析其实仅仅在PyCharm环境即可做相应的分析。但是如果数据较大,还是要在集群环境里跑会快一些,一下又两种方案:
针对数据量不大(不是几十上百个G或者百万条级数据)的情况,为了方便可采用方案一:
下图为需要使用到的文件:
![](https://i-blog.csdnimg.cn/blog_migrate/8b5ba2f6aacd788d349e277dcb9becc3.png)
第一步,安装JDK(如果不确定自己的电脑之前是否装过jdk,可以前往设置——应用——应用和功能——搜索java即可查看是否有jdk,后面的查看自己的python也是一样,搜索python即可),再次我安装的是jdk8,当然也可以使用其他版本,但是如果比较佛系想小小偷个懒,那么也可以直接和我的环境的文件版本完全一样即可。双击jdk文件以安装jdk,一直点击下一步即可完成安装。
![](https://i-blog.csdnimg.cn/blog_migrate/815c5047e219a6e954c477221e2d631d.png)
![](https://i-blog.csdnimg.cn/blog_migrate/c8e3915fd739ce65a79b98b80d66f9d4.png)
进入jdk的安装位置可以看到以下文件夹:(也有可能只有上面那一个):
![](https://i-blog.csdnimg.cn/blog_migrate/45afb8680fb937777fac41b1e70d1524.png)
进入jdk 1.8.0_261文件夹,复制路径
![](https://i-blog.csdnimg.cn/blog_migrate/d10b9b8e939ab463026f497c5ad5a1bb.png)
进入系统环境变量的设置,新增用户变量,变量名为JAVA_HOME,变量值为刚刚你复制的JDK的文件的路径,点击确定。
![](https://i-blog.csdnimg.cn/blog_migrate/d5252bc0f283256b309d24f4a5fba0af.png)
然后找到自己的变量名为Path的变量,选中并点击编辑——新建,输入%JAVA_HOME%\bin,确定即可。
![](https://i-blog.csdnimg.cn/blog_migrate/8e147a656061829c61aed6d10b2bdf6a.png)
![](https://i-blog.csdnimg.cn/blog_migrate/acfc18d9d9f3d3bc3e732aa67095c79c.png)
打开命令行,输入‘java -version’,回车,如果出现版本号即说明安装成功。
![](https://i-blog.csdnimg.cn/blog_migrate/c20db414d9a59d3bfd01823b246973f1.png)
第二步,安装Python,双击python文件以安装,然后如下无脑安装(也可以自定义安装):
![](https://i-blog.csdnimg.cn/blog_migrate/67b7b06c81f5de30403e900b9d3800d5.png)
根据提示安装完成后进入命令行输入‘python’,如果显示版本号就说明安装成功。
![](https://i-blog.csdnimg.cn/blog_migrate/5df4824f246e0d2b5d010c379b6a6989.png)
第三步,安装PyCharm.双击Pycharm文件以安装,详情看图,最后一直next即可完成安装()
![](https://i-blog.csdnimg.cn/blog_migrate/ef8bdd1ff7562c0137f88b8bab5a69c2.png)
![](https://i-blog.csdnimg.cn/blog_migrate/dcc3bbb78e2886294eda3094c7fd7819.png)
安装完成后,打开Pycharm,
![](https://i-blog.csdnimg.cn/blog_migrate/9bf895a7b5b1640f91919d09fe8d6adb.png)
![](https://i-blog.csdnimg.cn/blog_migrate/c6a05013493773605a9a251fd7f626dc.png)
输入样例观察能否成功运行:
![](https://i-blog.csdnimg.cn/blog_migrate/525b6287694379276f5c15cdced20d2a.png)
点击File—settings然后到如下位置:
![](https://i-blog.csdnimg.cn/blog_migrate/e149fc0808c1222347c57321ea8beed1.png)
点击加号:
![](https://i-blog.csdnimg.cn/blog_migrate/725f76a5d58387aa69a359facf68e73d.png)
搜索Pyspark,按下图操作:
![](https://i-blog.csdnimg.cn/blog_migrate/08cf56ac418c16229888a456dae3244b.png)
同理对应讲下图的所有文件下载好(尽量保持和我的版本一致,避免出错自己难以处理):
![](https://i-blog.csdnimg.cn/blog_migrate/e7040bb3bd918d96b2a04b3684980763.png)
创建python文件测试:
![](https://i-blog.csdnimg.cn/blog_migrate/95a648329188fb04fbbf4052065e0b89.png)
如果可以正常运行,就完成第一个方法的环境的搭建啦!接下来自己导入数据即可进行分析处理。
方案二:
第一步,安装Virtualbox(国产、开源,关键是免费)
第二步,下载虚拟机镜像:
https://archive.cloudera.com/hwx-sandbox/hdp/hdp-2.6.5/HDP_2.6.5_virtualbox_180626.ova
![](https://i-blog.csdnimg.cn/blog_migrate/05050e3f47813116713d14b243004f05.png)
打开VirtualBox,导入虚拟机镜像:
![](https://i-blog.csdnimg.cn/blog_migrate/a74a8585c91969688b4d22fb6b031203.png)
注意内存大小及导入路径,必须保证磁盘有充足的剩余空间
![](https://i-blog.csdnimg.cn/blog_migrate/c2e8a61923308f70a43f033e9bc06176.png)
等待导入完成:
![](https://i-blog.csdnimg.cn/blog_migrate/e666a1aebd39b2b8910fbc756745e306.png)
启动虚拟机:
![](https://i-blog.csdnimg.cn/blog_migrate/6328ee34851fc7089c72dfd85b65e193.png)
启动完成
![](https://i-blog.csdnimg.cn/blog_migrate/34280feb61d12a0440b80c40df3ba2a2.png)
![](https://i-blog.csdnimg.cn/blog_migrate/90d7c689a42c1713266051547748ef5a.png)
安装Xshell和Xftp。
打开Xshell,点击新建:
![](https://i-blog.csdnimg.cn/blog_migrate/458a3949b90cd3dea94217a3f9c4b330.png)
输入下列参数,准备上传文件:
![](https://i-blog.csdnimg.cn/blog_migrate/6643dba4fb5770277152e948a1e74be2.png)
输入用户名:root
![](https://i-blog.csdnimg.cn/blog_migrate/37654cbb73868e4db26acc0cf9682345.png)
![](https://i-blog.csdnimg.cn/blog_migrate/853fa1b1630e5d5b545e69b8889cfa6c.png)
第一次登录需要更改密码,但是需要先输入当前密码,然后输入新密码,确认密码,最后即可使用:
![](https://i-blog.csdnimg.cn/blog_migrate/36eb22ca6ed54552687ce29218b5dad3.png)
点击图中的Xftp按钮:
![](https://i-blog.csdnimg.cn/blog_migrate/b4ca6ab5f84f3061d9b363656b3d4344.png)
打开Xftp后,输入起先新设置的密码,进入到远程Linux服务器:
![](https://i-blog.csdnimg.cn/blog_migrate/9598883d4b70d48456e0d628a2ee4510.png)
![](https://i-blog.csdnimg.cn/blog_migrate/a13263f1b29ebbf172878f4d7161032c.png)
将文件拖放进去后,就会看到上传进度:
![](https://i-blog.csdnimg.cn/blog_migrate/00e6f32c77cf02675b0bfdb9adba4d0b.png)
等待上传完成后回到Xshell:
![](https://i-blog.csdnimg.cn/blog_migrate/553aeaae9218962a67a6b418ea31bce9.png)
创建文件夹,上传自己的文件到HDFS中:
![](https://i-blog.csdnimg.cn/blog_migrate/aa918b357a5831cd5387b2228ec8b170.png)
这样就可以在http://localhost:1080/里面进入并找到HDFS相应的文件夹并查询自己刚刚上传的文件是否成功。
这样,后续就可以开始对数据进行处理了:
![](https://i-blog.csdnimg.cn/blog_migrate/403474f3a02bbddc480286f2e965ee42.png)
![](https://i-blog.csdnimg.cn/blog_migrate/48abf98a3082f0e1b480febe285e1b70.png)
至此方案二环境搭建完成。