hadoop
文章平均质量分 83
停不下的脚步
这个作者很懒,什么都没留下…
展开
-
HDFS知识点
初始化注册:当Datanode启动或重启时,将向NameNode进行注册,告知NameNode其可以处理HDFS的读写操作。 周期性心跳:所有的DataNode周期性(默认是每3秒)地向NameNode发送包含该节点使用统计的心跳信息,让NameNode知道DataNode活着。NameNode收到心跳后会给DataNode一个返回值,这个返回值里就包含对DataNode的指令,比如将数据块复制到另外一台节点上或删除某个块。一个DataNode如果超过10分钟没有发送心跳,此时NameNode..原创 2020-09-10 16:22:41 · 438 阅读 · 0 评论 -
hadoop文件格式
按行存储:sequenceFile、mapfile、avro sequenceFile:hadoop api提供的一种二进制文件,数据以<key,value>的形式序列化到文件中。不是很常用,一般用来合并小文件。 mapfile:带索引的sequenceFile avro:数据序列化框架,类似protocol buffers,thrift,avro有自己的文件格式.avro结尾,avro依赖shema实现数据结构定义。avro类似于序列文件,但是sequenceFile原创 2020-09-10 16:21:20 · 432 阅读 · 0 评论 -
hadoop集群部署之benchmark
当我们部署完一个新的集群,或者对集群做了升级,或调整集群中的性能参数后,想观察集群性能的变化,那么我们就需要一些集群测试工具。hadoop自带测试包,在这个测试包下我们也看到了很多测试工具,其中DFSCIOTest、mrbench、nnbench应用广泛。$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-2.7.3.jarAn example program must be given as the原创 2020-09-10 16:19:02 · 543 阅读 · 1 评论 -
hadoop集群安装部署之操作系统调优
部署hadoop之前对操作系统的修改:1.disable 磁盘的access time 这个将显著提升磁盘IO:https://www.cnblogs.com/sunss/archive/2010/09/09/1822300.html2.对于非系统磁盘,设置不给系统盘保留磁盘空间:#set space during file system creation$mkfs.ext3 -m 0 /dev/sdb#or tune the filesystem afterwards..原创 2020-09-10 16:18:25 · 578 阅读 · 1 评论 -
hadoop集群安装部署之硬件选择
1、不可选择刀片服务器,因为他们与其他服务器共享资源,当刀片服务器机箱出现故障时,将导致几个DataNode不可用。而且刀片服务器的磁盘和RAM容量太低,无法支持大量的处理。2、选择x86架构的机架式服务器。通常一个机架可安置18-20台机架式服务器。所以对我们小集群而言一台机架即可。机架中配备一对10GbE交换机,对于大集群只需扩展机架即可。对于中、大集群的网络配置在《OReilly.Architecting.Modern.Data.Platforms》书中的network篇章有详细介绍。另外对于原创 2020-09-10 16:17:08 · 1387 阅读 · 0 评论 -
免匙SSH登录失败问题(非常规)
问题描述:上周给公司搭建大数据平台,选取三台机器,安装配置一切顺利。后来发现/home目录的挂载盘容量不够用,所以就扩容了,在扩容之前将/home/hadoop文件夹复制到其他地方,扩容后再复制回来,现在问题来了,hadoop文件夹迁移回来后,发现免匙SSH无用了。问题排查:1.检测权限chmod 600 ~/.ssh/authorized_keyschmod 70原创 2017-05-31 10:43:51 · 4497 阅读 · 0 评论 -
MapReduce之自定义partitioner
partitioner定义:partitioner的作用是将mapper(如果使用了combiner的话就是combiner)输出的key/value拆分为分片(shard),每个reducer对应一个分片。默认情况下,partitioner先计算key的散列值(通常为md5值)。然后通过reducer个数执行取模运算:key.hashCode%(reducer个数)。这种方式不仅能够随机地将原创 2015-02-02 10:59:54 · 1195 阅读 · 0 评论 -
多个mapreduce连接实例
将reduce端连接的Map/Reduce结果作为wordCount 的map输入源:package com.mr.multiMapReduce;import java.io.IOException;import org.apache.hadoop.examples.WordCount;import org.apache.hadoop.fs.FileSystem;import or原创 2014-12-25 17:28:15 · 1048 阅读 · 0 评论 -
hadoop MapReduce 三种连接
为了实现内连接和外连接,MapReduce中有三种连接策略,如下所示。这三种连接策略有的在map阶段,有的在reduce阶段。它们都针对MapReduce的排序-合并(sort-merge)的架构进行了优化。重分区连接(Repartition join)——reduce端连接。使用场景:连接两个或多个大型数据集。复制连接(Replication join)——map端连接。使用场景:待原创 2014-12-25 17:22:49 · 1228 阅读 · 0 评论 -
使用Hive处理WordCount
一.在Hive中创建存放要处理的数据的表$hive> create table textlines(line string)导入数据:$hive> load data inpath ’tmp/input’ overwrite into table textlines;如果想从本地导入,可以使用这个load data local inpath '...',这里的就会是这样的/原创 2014-12-25 17:12:49 · 4370 阅读 · 1 评论 -
MapReduce之distinct
适用场景:当我们希望去除数据集中的重复数据或者某些字段重复的数据就可以使用这个模式。结构:这个模式使用了MapReduce框架的功能,将相同的key分组到一起来实现去重。这个模式使用mapper做数据的转换,在reducer中不需要做太多工作。在这个模式中可以使用combiner,如果有大量重复的数据,combiner将非常有用。重复的记录在数据集中经常会相对邻近,因此comb原创 2015-01-29 19:35:39 · 2927 阅读 · 1 评论 -
MapReduce之topN
适用场景:1.这个模式需要一个比较两条记录的比较函数。也就是说,我们必须得通过比较确认两条记录中哪一个更大一些。2.输出记录数相对于输入记录数将会是异常的小,否则获得整个数据集的全排序将会更有意义。结构:这个模式同时使用了mapper和reducer。mapper任务找出其本地的top K,然后所有独立的top K集合在reducer中做最后的top K运算。因为在mapp原创 2015-01-29 15:38:07 · 6390 阅读 · 1 评论 -
布隆过滤器
目的:过滤器使我们可以保留属于某个预定义值集合的记录。如果输出的结果有小的误判也不会是问题(只可能误判,绝不会漏判,失误率取决于hash算法),因为我们会在后续的操作中做进一步的检查。这里的预先确定的值列表称为热门值(hot values)集合。对每条记录抽取其中一个特征。如果抽取的特征是布隆过滤器中所表示的值集合的成员,则保留这条记录;否则丢弃这条记录(或者做相反的处理)。适用场景:原创 2015-01-29 10:02:26 · 1136 阅读 · 0 评论 -
在eclipse中开发hadoop MapReduce
一.安装hadoop for eclipse的插件,注意:插件版本要和hadoop版本一致。下载:hadoop-eclipse-plugin-2.5.2.jarhttp://download.csdn.net/detail/tondayong1981/8186269将hadoop-eclipse-plugin-2.5.2.jar文件放到ECLIPSE_HOME/plugins下,重启e原创 2014-12-19 13:52:34 · 1299 阅读 · 0 评论 -
Hadoop yarn完全分布式安装笔记
版本及配置简洁Java: JDK1.7.0_71Hadoop: hadoop-2.5.2Linux: centos6.4 64bit暂且配置3台机器,假设三台机器IP如下:192.168.40.138 master192.168.40.137 slave-1192.168.40.136 slave-2一.前置环境配置1.创建hadoop用户以下原创 2014-12-18 16:55:36 · 1484 阅读 · 0 评论 -
Hive安装手册
HIVE版本:0.14.01.解压并重命名hive把apache-hive-0.14.0.bin.tar复制到/usr/hadoop/#cd /home/hadoop/#tar -xvf apache-hive-0.14.0.bin.tar#mv apache-hive-0.14.0.bin hive2.设置hive环境变量#vi /etc/profileexpor原创 2014-12-18 16:57:44 · 978 阅读 · 0 评论 -
Hbase安装手册
HBASE版本: hbase-0.98.61.解压并重命名hbase解压hbase-0.98.6-hadoop2.tar.gz到/home/hadoop/目录下$tar -zxvf hbase-0.98.6-hadoop2.tar.gz /home/hadoop/$mv hbase-0.98.6-hadoop2 hbase-0.98.62.给hbase设置JAVA_HOME原创 2014-12-18 16:56:40 · 775 阅读 · 0 评论 -
mapreduce实现倒排索引
目的:产生一个数据集的索引以便提供更快的搜索或数据丰富能力。动机:对大的数据集建立一个关键字的索引,通常可以方便通过指定关键字搜索到其包含特定值的对应记录。尽管创建倒排索引的过程需要预先进行额外的处理,但花费时间做预处理可以极大地缩减查询时所需要的时间。适用场景:倒排索引通常用在需要快速搜索查询响应的场景。可以对一个查询的结果进行预处理并存入数据库中。原创 2015-01-27 20:59:28 · 1285 阅读 · 0 评论 -
MySql安装及集成Hive手册
版本:my5.6.22-1.linux64一.安装Mysql1 判断centos上是否有安装,执行命令rpm -qa |grep mysql2 如果已经安装,需要删除原有的,防止冲突,执行命令$ rpm -e mysql-libs-5.1.66-2.el6_3.i686 --nodeps3 安装mysql的服务端,执行命令$rpm -i MySQL-se原创 2014-12-18 16:58:49 · 808 阅读 · 0 评论