自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 收藏
  • 关注

原创 Hadoop05——WordCount的非MapReduce实现和MapReduce在Windows下实现

WordCount的非MapReduce实现和MapReduce在Windows下实现非MapReduce实现package SimpleTest;import java.io.BufferedReader;import java.io.FileReader;import java.io.IOException;import java.util.HashMap;import jav...

2019-07-12 16:39:35 187

原创 hadoop04——HDFS的四大机制和两大核心

hadoop04——HDFS的四大机制和两大核心四大机制1.心跳机制HDFS中,NameNode负责管理元数据(DataNode),DataNode负责管理数据,为了及时确认每个DataNode是否在工作,DataNode每隔3秒,会向NameNode发送一个心跳报告,告知NameNode自己的存活情况和可用空间。在默认的情况下这个间隔就是3秒,也可以通过修改配置文件中的dfs.heartb...

2019-07-11 20:44:04 460

原创 Spark系列05,SparkSQL概念及相关操作

1. SparkSQL简介 SparkSQL,可以简单的理解为Spark生态体系中用于处理结构化数据的模块。1.1. 特点可集成统一的访问数据方式集成Hive操作提供标准的jdbc/odbc的数据库连接方式1.2. 参考网址https://www.cnblogs.com/BYRans/p/5057110.html官网:http://spark.apache....

2019-07-01 09:37:28 227

原创 Spark系列04,广播变量和累加器的使用以及常见Java关键字

1. 共享变量1.1. 概述​ 所谓共享变量,是为了解决task中使用到外部变量造成相关问题而出现的。spark提供了有限的两种共享变量:广播变量Broadcast变量和累加器Accumulator。1.2. Broadcast1.2.1. 使用说明​ 使用的话,非常简单,只需要将普通的变量包装为Broadcast即可。​ val xxBC:Broadcast[T] = sc.bro...

2019-06-28 09:02:37 327

原创 Spark系列03,Spark主要算子以及reduceByKey、combineByKey和groupBy详解

1. SparkRDD的操作​ Spark RDD的操作,便是对RDD的转换执行操作。从上图我们可以总结出,sparkRDD的操作,从宏观上分为:Transformation和Action,但是具体的还以分为输入算子、变换算子、缓存算子,以及行动算子。1.2. Transformation1.2.1. flatMap​ 是Spark RDD中的转换算子,对RDD中的每一个元素都执行...

2019-06-25 10:18:59 710

原创 Spark系列02,IDEA中创建Maven聚合项目

Maven聚合工程优点Maven的聚合工程就是在一个父模块的Pom.xml文件中引入所有工程需要的Maven依赖,在不同的子模块的Pom.xml中就可以直接继承父类中存在的Maven依赖而不需要重新引入。这样符合模块化开发的要求,更容易管理各个模块的Maven依赖,可以避免重复使得项目更加安全。Maven聚合工程实例创建一个聚合项目包含三个模块:父模块、Spark-core模块、Spark-...

2019-06-25 09:32:04 470

原创 hadoop03——hadoop架构以及优缺点,常用的hadoop shell命令以及Eclipse hadoop API配置

hdfs的设计思想1)分块存储默认128M hadoop2太大 负载不均衡太小 namenode的压力过大注意: 一个块 不够128M 单独成一个块200M2)冗余存储默认每一个块 3个副本 每一个块 总共存储3份副本: 相同地位 互为副本 没有优先级注意: 1)同一个块的不同副本 存储在不同节点的 2)默认副本3个 有一个宕机了 ...

2019-06-25 09:08:28 470

原创 Spark系列01,Spark简介、安装、相关名词解释

Spark系列01,Spark简介、相关名词解释以及Spark聚合项目创建导论Spark 概述Spark集群的安装本地提交一个Spark的作业导论Spark 概述Spark就是一款全栈的计算引擎,底层基于RDD(弹性式分布式数据集 Resilient Distributed Dataset),主要是基于内存的计算,官网号称基于磁盘比mr快10倍,基于内存比mr块100倍。具有高速、易用、通...

2019-06-24 20:56:52 680

原创 hadoop02——hadoop的几种集群搭建方式

hadoop的安装:完全分布式集群安装遇到的问题1)格式化的时候配置文件报错Caused by: org.xml.sax.SAXParseException; systemId: file:/home/hadoop/apps/hadoop-2.7.6/etc/hadoop/mapred-site.xml; lineNumber: 21; columnNumber: 3; The conte...

2019-05-29 19:12:48 549 1

原创 hadoop01———hadoop简介以及环境搭建

1.有一个超级大的文件,一台机器存储或计算无法完成的,里面存储都是ip,每行一个,计算大文件中每一个ip出现的次数以及出现次数最多的ip这个超级大的文件如何存储?1)分而治之的思想 分布式存储将超级大的文件切分成多个小文件 每一个小文件存储在一个服务器上无限的扩展服务器的个数横向扩展:服务器的节点个数上扩充优点:无上限 120002)纵向扩展:增加服务器的硬件配置也可...

2019-05-29 19:11:50 272

原创 NIO

NIO 从 JDK1.4 才开始有:JDK1.7 推出 NIO 2.0在JDK1.4推出Java NIO之前,基于Java的所有Socket通信都采用了同步阻塞模式(BIO),这种一请求一应答的通信模型简化了上层的应用开发,但是在性能和可靠性方面却存在着巨大的瓶颈因此,在很长一段时间里,大型的高性能服务端应用程序都采用C或者C++语言开发,因为它们可以直接使用操作系统提供的异步I/O或者AI...

2019-05-29 19:10:35 99

原创 阻塞和非阻塞、同步和异步

一、IO概述IO操作其实可以分成两个步骤,请求IO操作和执行IO操作。一般的IO调用过程是这样的:发起IO操作的请求,执行IO操作,得到IO操作的结果,将结果返回给IO操作请求。同步和异步同步和异步是一种通信机制,涉及到调用方和被调用方,关注的是IO操作的执行过程及结果的返回方式,不同点在于双方在这两个方面的行为方式。如果调用方需要保持等待直到IO操作完成进而通过返回获得结果,则是同步...

2019-05-29 19:09:53 187

原创 redis的安装以及图形界面的配置

1.什么是Nosqlnot only sql:非关系型数据库解决海量数据和大型集群产生的高并发,高可用,高性能问题数据库解决方案。2.Nosql分类 键值(Key-Value)存储数据库相关产品: Tokyo Cabinet/Tyrant、Redis、Voldemort、Berkeley DB典型应用: 内容缓存,主要用于处理大量数据的高访问负载。数据模型: 一系列键值对优势: ...

2019-05-29 19:09:10 534

原创 linux下安装jdk

1.下载软件包并上传到linux平台(直接在linux平台下载 wget)1.1 put -r 包(ftp 21 /sftp 22)alt + p --> 上传put -r d:/dev/Linux/soft/jdk-8u73-linux-x64.tar.gz(默认在家目录下)1.2 ftp软件上传2.解包解压缩tar -zxvf jdk-8u73-linux-x64.tar...

2019-05-29 19:07:41 97

原创 linux安装mysql

1.上传包到linux平台2.解包tar -xvf mysql-5.6.26-1.linux_glibc2.5.x86_64.rpm-bundle.tar3.查看旧版本进行卸载rpm -qa | grep -i mysqlrpm -e --nodeps mysql-libs-5.1.73-5.el6_6.x86_644.安装(server,client)安装服务:rpm -ivh ...

2019-05-29 19:07:08 107

原创 linux03----常用linux命令

1.用户名称hostname临时:hostname 名称永久:/etc/sysconfig/network2.主机映射: ip和名称linux: /etc/hostswindows: c:\windows\system32\Drivers\etc\hosts3.虚拟机和宿主机通讯方式:1.桥接模式: 宿主机物理网卡和虚拟交换机通过虚拟网桥连接(宿主机和虚拟机同一网段)2.NAT模...

2019-05-29 19:06:20 106

原创 linux02

1.网络管理1.1 宿主机和虚拟机通讯方式桥接NAT仅主机网络接口信息:vim /etc/sysconfig/network-scripts/ifcfg-eth01.2 主机名称hostname: 查看主机名称hostname 主机名称: 修改主机名(临时)hostname hadoop //修改当前主机名为hadoop,仅当次启动有效vim /etc/sysconfig/...

2019-05-29 19:04:43 110

原创 linux01

从零开始搭建hadoop集群1.什么是linux开源免费的类unix操作系统,主要应用于服务器端。支持多用户,多任务,多线程和多cpu。2.linux特点2.1 分时的多用户,多任务操作系统2.2 多数网络协议,方便远程管理2.3 强大的内存管理和文件管理2.4 稳定性和安全性2.5 拥有丰富开源免费软件(服务器端)2.6 多种发行版3.系统架构内核: 软件和硬件交互平台。...

2019-05-29 18:50:28 116

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除