大数据处理
文章平均质量分 78
吱唔朱_
专业摸鱼
展开
-
大数据处理实验(五)使用mllib完成mnist手写识别任务
使用mllib完成mnist手写识别任务一、准备数据集1.下载数据集并解压2.执行程序生成.libsvm文件3.通过共享目录传递数据集到spark-master容器内二、读取数据集三、训练模型小提示:通过restart命令重启已经退出了的容器:sudo docker restart <contain id>一、准备数据集1.下载数据集并解压http://yann.lecun.com/exdb/mnist/2.执行程序生成.libsvm文件将解压得到的数据集文件与csv_to_li原创 2022-05-04 21:15:29 · 1130 阅读 · 0 评论 -
大数据处理实验(四)使用docker构建spark运行环境
使用docker构建spark运行环境安装docker与docker-compose系统构架图:docker compose部署文件:使用yml部署文件部署spark环境安装docker与docker-compose查询docker版本号。在host上执行。sudo docker -v根据查询到的版本号,在下列网站找到对应的docker-compose版本。https://github.com/docker/compose/releases这里,我们使用最新的1.25.5版本。执行下列命令原创 2022-04-29 19:28:47 · 3367 阅读 · 1 评论 -
大数据处理实验(三)HDFS基本操作实验
HDFS基本操作实验一、Hadoop配置环境变量列出当前目录下的文件级联创建一个文件夹,类似这样一个目录:/mybook/input上传文件至HDFS从HDFS上下载文件查看HDFS上某个文件的内容统计目录下各文件的大小(单位:字节B)删除HDFS上某个文件或者文件夹使用help命令寻求帮助。HDFS的基本命令格式:hdfs dfs -cmd <args>注意:需要事先将HADOOP_HOME/bin目录配置进入环境变量。一、Hadoop配置环境变量进入实验二创建的master容器su原创 2022-04-28 23:20:57 · 5386 阅读 · 1 评论 -
大数据处理实验(二)基于hadoop与MapReduce的分布式编程
文章目录一、基于hadoop与MapReduce的分布式编程1.通过docker-compose部署容器安装docker-compose编写docker-compose.yml文件进入docker-compose.yml的目录2.基于JAVA的MapReduce分布式编程Maven安装与配置(eclipse)将Git项目转为Maven项目(eclipse)将maven工程打包成jar包(eclipse)3.基于Hadoop Streaming与Python的MapReduce分布式编程二、检查运行环境三、使原创 2022-04-23 00:21:33 · 1944 阅读 · 1 评论