大数据
猫猫爱弹琴
这个作者很懒,什么都没留下…
展开
-
linux01
从零开始搭建hadoop集群1.什么是linux开源免费的类unix操作系统,主要应用于服务器端。支持多用户,多任务,多线程和多cpu。2.linux特点2.1 分时的多用户,多任务操作系统2.2 多数网络协议,方便远程管理2.3 强大的内存管理和文件管理2.4 稳定性和安全性2.5 拥有丰富开源免费软件(服务器端)2.6 多种发行版3.系统架构内核: 软件和硬件交互平台。...原创 2019-05-29 18:50:28 · 126 阅读 · 0 评论 -
hadoop04——HDFS的四大机制和两大核心
hadoop04——HDFS的四大机制和两大核心四大机制1.心跳机制HDFS中,NameNode负责管理元数据(DataNode),DataNode负责管理数据,为了及时确认每个DataNode是否在工作,DataNode每隔3秒,会向NameNode发送一个心跳报告,告知NameNode自己的存活情况和可用空间。在默认的情况下这个间隔就是3秒,也可以通过修改配置文件中的dfs.heartb...原创 2019-07-11 20:44:04 · 490 阅读 · 0 评论 -
Spark系列05,SparkSQL概念及相关操作
1. SparkSQL简介 SparkSQL,可以简单的理解为Spark生态体系中用于处理结构化数据的模块。1.1. 特点可集成统一的访问数据方式集成Hive操作提供标准的jdbc/odbc的数据库连接方式1.2. 参考网址https://www.cnblogs.com/BYRans/p/5057110.html官网:http://spark.apache....原创 2019-07-01 09:37:28 · 247 阅读 · 0 评论 -
Spark系列04,广播变量和累加器的使用以及常见Java关键字
1. 共享变量1.1. 概述 所谓共享变量,是为了解决task中使用到外部变量造成相关问题而出现的。spark提供了有限的两种共享变量:广播变量Broadcast变量和累加器Accumulator。1.2. Broadcast1.2.1. 使用说明 使用的话,非常简单,只需要将普通的变量包装为Broadcast即可。 val xxBC:Broadcast[T] = sc.bro...原创 2019-06-28 09:02:37 · 345 阅读 · 0 评论 -
Spark系列01,Spark简介、安装、相关名词解释
Spark系列01,Spark简介、相关名词解释以及Spark聚合项目创建导论Spark 概述Spark集群的安装本地提交一个Spark的作业导论Spark 概述Spark就是一款全栈的计算引擎,底层基于RDD(弹性式分布式数据集 Resilient Distributed Dataset),主要是基于内存的计算,官网号称基于磁盘比mr快10倍,基于内存比mr块100倍。具有高速、易用、通...原创 2019-06-24 20:56:52 · 714 阅读 · 0 评论 -
Spark系列03,Spark主要算子以及reduceByKey、combineByKey和groupBy详解
1. SparkRDD的操作 Spark RDD的操作,便是对RDD的转换执行操作。从上图我们可以总结出,sparkRDD的操作,从宏观上分为:Transformation和Action,但是具体的还以分为输入算子、变换算子、缓存算子,以及行动算子。1.2. Transformation1.2.1. flatMap 是Spark RDD中的转换算子,对RDD中的每一个元素都执行...原创 2019-06-25 10:18:59 · 742 阅读 · 0 评论 -
Spark系列02,IDEA中创建Maven聚合项目
Maven聚合工程优点Maven的聚合工程就是在一个父模块的Pom.xml文件中引入所有工程需要的Maven依赖,在不同的子模块的Pom.xml中就可以直接继承父类中存在的Maven依赖而不需要重新引入。这样符合模块化开发的要求,更容易管理各个模块的Maven依赖,可以避免重复使得项目更加安全。Maven聚合工程实例创建一个聚合项目包含三个模块:父模块、Spark-core模块、Spark-...原创 2019-06-25 09:32:04 · 485 阅读 · 0 评论 -
hadoop03——hadoop架构以及优缺点,常用的hadoop shell命令以及Eclipse hadoop API配置
hdfs的设计思想1)分块存储默认128M hadoop2太大 负载不均衡太小 namenode的压力过大注意: 一个块 不够128M 单独成一个块200M2)冗余存储默认每一个块 3个副本 每一个块 总共存储3份副本: 相同地位 互为副本 没有优先级注意: 1)同一个块的不同副本 存储在不同节点的 2)默认副本3个 有一个宕机了 ...原创 2019-06-25 09:08:28 · 495 阅读 · 0 评论 -
linux下安装jdk
1.下载软件包并上传到linux平台(直接在linux平台下载 wget)1.1 put -r 包(ftp 21 /sftp 22)alt + p --> 上传put -r d:/dev/Linux/soft/jdk-8u73-linux-x64.tar.gz(默认在家目录下)1.2 ftp软件上传2.解包解压缩tar -zxvf jdk-8u73-linux-x64.tar...原创 2019-05-29 19:07:41 · 106 阅读 · 0 评论 -
linux03----常用linux命令
1.用户名称hostname临时:hostname 名称永久:/etc/sysconfig/network2.主机映射: ip和名称linux: /etc/hostswindows: c:\windows\system32\Drivers\etc\hosts3.虚拟机和宿主机通讯方式:1.桥接模式: 宿主机物理网卡和虚拟交换机通过虚拟网桥连接(宿主机和虚拟机同一网段)2.NAT模...原创 2019-05-29 19:06:20 · 115 阅读 · 0 评论 -
linux02
1.网络管理1.1 宿主机和虚拟机通讯方式桥接NAT仅主机网络接口信息:vim /etc/sysconfig/network-scripts/ifcfg-eth01.2 主机名称hostname: 查看主机名称hostname 主机名称: 修改主机名(临时)hostname hadoop //修改当前主机名为hadoop,仅当次启动有效vim /etc/sysconfig/...原创 2019-05-29 19:04:43 · 118 阅读 · 0 评论 -
Hadoop05——WordCount的非MapReduce实现和MapReduce在Windows下实现
WordCount的非MapReduce实现和MapReduce在Windows下实现非MapReduce实现package SimpleTest;import java.io.BufferedReader;import java.io.FileReader;import java.io.IOException;import java.util.HashMap;import jav...原创 2019-07-12 16:39:35 · 202 阅读 · 0 评论