大数据框架
文章平均质量分 92
大数据相关框架的学习
bigdata7
Java学习
展开
-
Spark的基础编程
Spark的基础编程Spark的一些基本概念1.RDD:弹性分布式数据集,是分布式内存的一个抽象概念,提供了一种高度受限的共享内容模型,即RDD是只读的记录分区的集合,只能基于稳定的物理存储中的数据集来创建RDD,或者通过其它RDD上执行确定的转换操作(如map,join,group by)来创建,这些限制使得实现容错的开销很低。一个RDD 就是一个分布式对象集合,作为数据结构,RDD本质上是一个只读的分区记录集合,每个RDD可以分成多个分区,每个分区就是一个数据集片段,并且一个RDD的不同分区可以保原创 2022-01-12 18:25:15 · 1484 阅读 · 0 评论 -
docker拉取hadoop镜像做集群
该文docker常用命令docker search imagename:搜索查找镜像docker pull imagename:拉取镜像到本地仓库docker images:查看本地镜像docker ps:查看正在运行的容器docker ps -a:查看所有容器docker run --name master -d -h master 本地镜像名:运行本地镜像 --name 容器名 -d 后台运行 -h 运行容器的主机名docker exec -it 容器名 bash:进入容器名或id为多少.原创 2021-05-12 14:53:42 · 1987 阅读 · 6 评论 -
搭建单机hadoop并运行自带的分词jar包
这篇实验是紧接着Hyper-V的 前奏是:Hyper-V搭建CentOS7文章目录第四步:安装单机hadoop【jdk、tomcat】1. 前期准备(1)网络配置(2)修改主机名和添加ip映射重启:(3)关闭防火墙2.安装jdk和hadoop(1)建立java目录和soft目录存放jdk与hadoop文件:(2)上传文件并解压缩:(3)修改解压缩后的文件名并配置两个的环境变量:(4)验证jdk环境:3.修改hadoop的配置文件:(1)修改hadoop.env.sh【配置jdk环境】:(2)修改co.原创 2021-05-12 15:50:50 · 142 阅读 · 1 评论 -
利用MapReduce的思想用Hive做词频统计
利用MapReduce的思想用Hive做词频统计1.打开hadoop与hivestart-dfs.sh 或者 start-all.shqive或者进到hive安装目录的bin下再输入hive2.在hive shell下面先建立数据库WordCount ,然后查询建立是否成功。create database WordCount;show databases;3.打开WordCount数据库,建立表txt来存放文档。并从hdfs的input目录下导入文本文件。【一般英文比较好一点,中文要转码原创 2020-11-22 21:24:00 · 508 阅读 · 0 评论 -
hive与mysql的安装与配置
hive与mysql的安装与配置hive是基于hadoop的数据仓库工具,将一定格式的文件映射为一张张表,因此hive版本和hadoop版本有对应关系,一定要检查自己安装的hadoop和hive版本是否兼容;hadoop版本:2.9.1,hive版本:3.2.1,jdk:1.8.0_162,mysql:8.0.20,jdbc:8.0.20在链接内自己可以查看hive,hadoop关系(http://hive.apache.org/downloads.html)##查看hive版本:启动hive时会出原创 2020-11-22 20:23:21 · 996 阅读 · 0 评论 -
Hbase表结构与常用操作命令
Hbase表结构与常用操作命令一.使用Hbase前需要先启动Hadoopstart-dfs.sh,然后启动Hbasestart-hbase.sh与Hbase Shellhbase Shell,进入shell命令提示符状态。概念:HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoo原创 2020-11-04 11:49:28 · 3804 阅读 · 0 评论