基于HDFS的电商数据存储

最新推荐文章于 2022-12-29 16:11:39 发布

vincc177

最新推荐文章于 2022-12-29 16:11:39 发布

阅读量1k

点赞数 4

分类专栏：头歌-大数据与云计算文章标签： hdfs hadoop 大数据

本文链接：https://blog.csdn.net/qq_56710665/article/details/128361202

版权

头歌-大数据与云计算专栏收录该内容

2 篇文章 0 订阅

订阅专栏

第1关：利用shell把电商数据上传到HDFS

任务描述

原始电商数据都是存储在关系型数据库或 NoSQL 数据库上的，是面向OLTP(联机事务处理过程)的；数据都是面向业务的，而不是面向分析。因此数据比较复杂，表很多关联的数据是分散的，不利于统计分析；因此需要把数据从多个表里导出来、联合起来，找出分析所需要的数据项，然后把这些数据存入到 HDFS 中。

另一方面，因为数据量很大，可能上百 GB 甚至 TB，这些数据超过了单台服务器的内存容量甚至硬盘容量，而且如果都存到一台服务器上，那么读写起来花费时间也是很长的，如果把数据分摊到多个服务器上，那么原本的读写时间就能减倍，HDFS 就能做到这一点。

HDFS 是 Hadoop 中的分布式文件系统，可以高效的利用多台（数百、数千都可以）服务器的存储能力，因此把电商数据存储到 HDFS 中，可以借助强大的 Hadoop 来管理、分析海量的电商数据，以挖掘最大的潜在商业价值。

本关任务：使用 HDFS shell 命令把电商数据从本地上传到 HDFS 中。

编程要求

本关不需要编写 Java 代码，直接在命令行完成关卡。根据任务提示，启动 hadoop, 把数据文件上传到 HDFS 中。

使用start-all.sh或start-dfs.sh启动 hadoop 或 hdfs；
把/data/workspace/···/dataset/user_behavior.csv文件拷贝到/root目录内（...里面的都是单文件夹，可以用tab建自动补全）；
在HDFS中创建一个新文件夹 /dataset；
把user_behavior.csv文件上传到刚创建的文件夹中；
打印文件内容，以检测文件是否上传成功。（文件比较大，可使用 hdfs dfs -cat /yourpath | tail -10 只显示末尾10行数据，减少输出量）

代码实现

在命令行输入（一步一回车）：

start-all.sh    //启动hadoop

cp /data/workspace/myshixun/dataset/user_behavior.csv /root/

hdfs dfs -mkdir /dataset

hdfs dfs -put user_behavior.csv /dataset

当然代码文件不能为空（可以随便敲点东西）

（ps:建议立马开始第二关，因为需要在第一关的基础上。）

第2关：利用Java API把电商数据上传到HDFS

任务描述

目的与第一关一致，部分任务描述可参考第一关。有时候，我们并不想直接用 HDFS 命令来上传输入，比如当上传的文件很多、文件名很长的时候，一次又一次的打 HDFS 命令很慢也可能会出错，这时候可以使用 Java API 的方式，HDFS Java API 是 HDFS 提供的可供 Java 程序调用的接口，类似 JDBC。本关卡将通过 Java 编程的方式来向 HDFS 上传数据文件。

本关任务：使用 HDFS Java API 命令把电商数据user_behavior.csv从本地上传到 HDFS 中。

编程要求

根据提示，在右侧编辑器补充代码，把本地数据文件上传到 HDFS 中。

所使用的本地数据文件路径为/root/user_behavior.csv；
上传至 HDFS 的目录路径为 /dataset。

代码实现

在代码文件中输入：

package educoder;

import java.io.IOException;
import java.net.URISyntaxException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;

public class PutFile {

    public static void main(String[] args) throws IOException, URISyntaxException {

        /********** Begin **********/
        // 使用本机默认hadoop配置
        Configuration config = new Configuration();
        // 获得默认HDFS文件系统
        FileSystem fs = FileSystem.get(config);
        // 数据文件linux路径
        String src = "/root/user_behavior.csv";
        // 要上传的HDFS路径
        Path newPath = new Path("/dataset");
        // 在hdfs创建新路径
        fs.mkdirs(newPath);
        // 使用copyFromLocalFile方法，把本地文件传入到hdfs路径中
        fs.copyFromLocalFile(new Path(src),newPath);
        /********** End **********/
    }

}

命令行需要启动Hadoop。

（ps：如果只需要快速通过，可以什么都不输入，但是得在第一关正确通过的前提下！）

vincc177

关注

4
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
基于HDFS的电商数据存储

原始电商数据都是存储在关系型数据库或 NoSQL 数据库上的，是面向OLTP(联机事务处理过程)的；数据都是面向业务的，而不是面向分析。因此数据比较复杂，表很多关联的数据是分散的，不利于统计分析；因此需要把数据从多个表里导出来、联合起来，找出分析所需要的数据项，然后把这些数据存入到 HDFS 中。
复制链接

扫一扫