hadoop从0开始
文章平均质量分 77
BUG世界中的killer
被委以让BUG消失于我们的代码当中的重任
展开
-
Redis学习(一)——基本介绍以及安装
什么是Redis官网上:Redis是一种开放源代码(BSD许可)的内存中数据结构存储,用作数据库,缓存和消息代理。它支持数据结构,例如字符串,哈希,列表,集合,带范围查询的排序集合,位图,超级日志,带有半径查询和流的地理空间索引。Redis具有内置的复制,Lua脚本,LRU驱逐,事务和不同级别的磁盘持久性,并通过Redis Sentinel和Redis Cluster自动分区提供高可用性单机版安装(Linux环境)1、下载:https://redis.io/download2、解压:tar -zxv原创 2020-07-15 17:51:11 · 161 阅读 · 0 评论 -
Kafka集群的搭建以及java生产消费代码测试
1、什么是Kafka官网上:Kafka®用于构建实时数据管道和流式应用程序。它具有横向可扩展性、容错性、速度极快,在数千家公司的生产中运行。2、集群搭建准备JDKZookeeper集群(https://mp.csdn.net/console/editor/html/86435349)防火墙的关闭(很重要不然在启动的时候会一直报连接错误)服务器之间的互信配置(.ssh目录下的操作见https://mp.csdn.net/console/editor/html/83477825)下载安装包:htt原创 2020-07-08 21:53:26 · 342 阅读 · 0 评论 -
Hive的安装以及基本操作的学习
目录什么是Hive为什么要学习hivehive安装部署hive数据类型hive的常用操作数据导入操作DDL数据定义创建表管理表外部表分区表DML数据操作常用查询同Mysql (略)分桶(抽样查询)UDF自定义函数hive压缩hive其他操作什么是Hive 官网:http://hive.apache.org/ Apache Hive™数据仓库软件有助于使用SQL读取,编写和管理驻留在分布式存储...原创 2019-08-04 18:53:17 · 477 阅读 · 0 评论 -
Mapreduce学习(6)——join操作
在mapreduce程序中有可能遇到文件一种某个字段对应另外一个文件中的某个字段我们又想把这两个文件中的数据在一起展示例如文件一:第一列代表订单号、第二列代表商品ID、第三列代表商品卖出数量文件二:第一列代表商品ID、第二列代表商品名、第三列代表商品单价情景:求出每个订单商品总价(商品单价*数量的和)解决:将两个文件进行join操作准备文件:把订单文件和商品...原创 2019-03-03 15:52:59 · 268 阅读 · 0 评论 -
Mapreduce学习(五)——数据压缩
一、为什么进行数据压缩?mapreduce操作需要对大量数据进行传输二、数据压缩的作用。压缩技术有效的减少底层存储系统读写字节数,hdfs。压缩提高网络带宽和磁盘效率。数据压缩节省资源。通过数据压缩可以影响到mapreduce的性能。注意:数据压缩不适用于文件小任务多的情景三、mapreduce常用的压缩编码 压缩格式 是否需要安装 ...原创 2019-02-17 19:51:56 · 307 阅读 · 1 评论 -
zookeeper基础学习(二)
这篇文章主要是继上篇文章继续来讲述zookeeper的相关原理知识一、zookeeper中的角色1)领导者(leader),负责进行投票的发起和决议,更新系统状态 2)学习者(learner),包括跟随者(follower)和观察者(observer),follower用于接受客户端请求并想客户端返回结果,在选主过程中参与投票 Observer可以接受客户端连接,将写请求转发给le...原创 2019-01-20 21:40:40 · 172 阅读 · 0 评论 -
zookeeper基础学习(一)
一、什么是zookeeperZookeeper是Google的Chubby一个开源的实现,是Hadoop的分布式协调服务它包含一个简单的原语集,分布式应用程序可以基于它实现同步服务,配置维护和命名服务等二、为什么用zookeeper1、大部分分布式应用需要一个主控、协调器或者控制器来管理物理分布的子进程(如资源、任务分配等)2、目前,大部分应用需要开发私有的协调程序,缺乏一个通...原创 2019-01-13 21:04:39 · 176 阅读 · 0 评论 -
Mapreduce学习(四)——自定义对象序列化以及分组排序
前面讲的wc程序都是按照key的默认排序来排序的。这篇文章给大家带来自定义排序以及数据和对象的映射序列化等相关操作准备测试数据如下:这里面的数据是商品名称 商品类型 进价 售价 数量 时间我们要做的是不同类型的商品放在不同的文件里面并且统计出每个商品的总利润并且按照利润倒序展示一、定义一个对象用于存放数据这个对象必须满足一下要求: 1)实现hadoop的序列化...原创 2018-12-23 17:35:06 · 402 阅读 · 0 评论 -
Mapreduce学习(三)——本地调试mr程序
上一篇文章介绍了mr和yarn执行过程。我们提交job都是在本地编写代码然后打包传送到linux上然后执行jar。非常麻烦而且不利于调试。所以这篇文章给大家带来如何在本地利用远端环境来调试mr程序。输入输出路径皆为本地路径:直接将之前的代码运行会出现以下错误: 没有HADOOP_HOME。。。既然如此那就在本地配置一个。第一次修改:hadoop包在本地解压配置环境变量(略过...原创 2018-12-17 11:56:37 · 929 阅读 · 0 评论 -
Mapreduce学习(二)——mr程序提交的流程+yarn框架的资源调度
上篇文章简单写了一个mr程序并且提交至咱们的集群中运行。这篇文章给大家带来mr具体的流程以及进程的变化过程我们运行sh.start-all.sh 时进程会出现 其中DataNode、NameNode、SecondaryNameNode属于HDFS的进程用于管理文件存储ResourceManager(下面称RM)和NodeManager(下面称NM)属于yarn框架的进程一、提交...原创 2018-12-16 00:11:17 · 622 阅读 · 0 评论 -
Mapreduce学习(一)——mr程序wordcount
之前学习了java操作hdfs系统。现在来学习mapreduce。写一个最简单的wordcount的小程序一、mapreduce介绍mr框架其实是由两部分构成:第一部分就是map部分。第二部分就是reduce部分。map是对hdfs系统上的文件进行第一次的筛选解析生成K-V的格式发送给reduce。reduce部分就是接收map解析处理之后的K-V键值对之后。对其进行计算得到我们所...原创 2018-12-09 20:21:11 · 2379 阅读 · 2 评论 -
Java操作HDFS
一、创建Java并使用maven在依赖hdfs所需要的jar文件创建过程:略pom.xml如下: <dependencies> <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>ha...原创 2018-11-25 23:35:16 · 225 阅读 · 0 评论 -
linux下使用ssh远程连接免密登录
在hadoop中有很多组件可能在多个服务器上。而在启动hdfs的时候都会提醒用户是否连接以及输入服务器密码。一台、两台服务器手动输入还不算麻烦。但是一般情况下都是有很多太服务器。这时候就会导致操作上的麻烦,那如何才能ssh免密登录呢?其实很简单。我相信很多人在工作中都使用过git作为项目的代码版本控制吧。我们一般的操作都是在内容中搭建一个gitlab作为项目代码远程仓库,然后在本地window...原创 2018-10-28 21:35:43 · 1540 阅读 · 1 评论 -
Linux如何修改静态IP
工欲善其事必先利其器!学习大数据知识第一步安装学习环境。一、下载VM。此处附上下载连接:https://my.vmware.com/en/web/vmware/free#desktop_end_user_computing/vmware_workstation_player/15_0|PLAYER-1500|product_downloads二、下载CentOS6/7系统。为了方便学习我们...原创 2018-10-20 22:44:16 · 2565 阅读 · 3 评论