Hadoop
你家宝宝
自2018年接触到Java,至今。
展开
-
淘宝双11大数据分析(Spark 分析篇)
文章目录前言test.csv 和 train.csv 数据预处理test.csv 文件的处理train.csv 文件的处理Spark 处理数据执行环境上传文件到HDFSMySQL 的准备工作启动 Spark Shell支持向量机SVM分类器预测回头客输出结果到 mysql 中mysql 确认数据已经存储进去前言阅读前请参考:淘宝双11大数据分析(环境篇)淘宝双11大数据分析(数据准备篇)...原创 2020-02-27 14:22:28 · 9607 阅读 · 8 评论 -
淘宝双11大数据分析(Hive 分析篇-上)
前言阅读此篇文章,需要先阅读前篇:淘宝双11大数据分析(环境篇)淘宝双11大数据分析(数据准备篇)当前环境使用 jps 查看当前启动的服务:(其中 Master 和 Worker是 Spark 的服务,不本篇无关)[root@centos2020 dataset]# jps11408 Master12707 RunJar7876 NameNode8183 ResourceM...原创 2020-02-26 14:09:27 · 5104 阅读 · 0 评论 -
淘宝双11大数据分析(数据准备篇)
文章目录前言数据内容分析`user_log.csv`文件内容含义`train.csv` 和 `test.csv` 文件内容含义数据上传到Linux系统并解压数据集的预处理文件信息截取导入数据到Hive中确认 Hadoop 服务已启动上传数据文件在 Hive 上创建数据表前言阅读前,请先查看前篇:淘宝双11大数据分析(环境篇)数据下载地址:百度云下载另:为求方便行事,我这里的用户全是 roo...原创 2020-02-26 12:45:40 · 10227 阅读 · 6 评论 -
淘宝双11大数据分析(环境篇)
案例分析前言通过本案例,你可以:熟悉在 Linux 系统中安装 Hadoop 集群、安装 Mysql 数据库,安装 Sqoop 数据迁移工具,安装 Spark ,安装 Hive 数据仓库。在 HDFS 分布式文件系统中创建文件夹、上传文件。在 Hive 中建立表,使用 Hive 对 HDFS 中的文件进行操作,使用 HQL 进行业务查询。使用 Sqoop 将 Hive 中的数据迁移到...原创 2020-02-26 10:35:14 · 7760 阅读 · 4 评论 -
Hadoop 集群搭建详细步骤
1. Linux配置静态网络操作中可能出现的问题解决:虚拟机ping不通宿主机、一个有截图的操作过程操作步骤:1、设置虚拟机的网络适配器(nat、仅主机、桥接)2、编辑/虚拟网络编辑器(指定某一网络模式)3、在命令行中修改网卡的静态地址cd /etc/sysconfig/network-scripts/,修改配置文件ifcfg-ens33vi ifcfg-ens33点击i进入...原创 2020-02-04 12:55:25 · 2623 阅读 · 0 评论