![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
fan_rockrock
程序人生
展开
-
hadoop的datanode启动不了
启动hadoop 2.6遇到的datanode启动不了分类: hadoop 2014-12-22 12:25 2678人阅读 评论(2)收藏 举报 hadoop查看日志如下:2014-12-22 12:08:27,264 INFO org.mortbay.log: Started HttpServer2$SelectChannelConnectorWit转载 2015-08-12 22:07:53 · 1185 阅读 · 1 评论 -
hadoop输出设置
http://www.iteblog.com/archives/842http://www.iteblog.com/archives/848注意:新旧版本的区别原创 2015-11-27 11:05:05 · 615 阅读 · 0 评论 -
电信运营商流量经营系统(数据模块
一、项目的核心模块(数据处理流程图) 二、相关代码1、建立规则数据库(TopN)public class TopkURLMapper extends Mapper { private FlowBean bean = new FlowBean(); private Text k = new Text(); @Override protected vo原创 2016-02-01 13:28:36 · 1806 阅读 · 0 评论 -
MapReduce(四):shuffer原理
reducer如何知道要从哪个tasktracker取得map输出呢? map任务成功完成以后,他们会通知其父tasktracker状态已更新,然后taskTracker进而通知jobTracker。这些通知在前面的心跳机制中传输。因此,对于指定作业,jobTracker知道map输出和taskTracker之间的映射关系。reducer中的一个线程定期询问jobTracher以原创 2015-09-18 20:08:24 · 2639 阅读 · 0 评论 -
MapReduce V2---Yarn的架构及其执行原理
1.MRv1的局限性 1):扩展性差 MRv1中,Jobracker同事兼备了资源管理和作业控制两个功能。 2):可靠性差 MRv1才用了master/slave结构,master存在单点故障的问题。 3):资源利用率低 MRv1采用了基于槽位的资源分配模型,槽位是一种粗粒度的资源划分原创 2015-09-22 11:10:59 · 1620 阅读 · 0 评论 -
ZooKeeper
一、ZK简介 (1)什么是ZK (2)zk体系架构 (3)数据模型、节点 Zookeeper 这种数据结构有如下这些特点: 1. 每个子目录项如 NameService 都被称作为 znode,这个 znode 是它所在的路径唯一标识,如 Server1 这 个 znode 的原创 2015-09-30 19:41:55 · 854 阅读 · 0 评论 -
Hbase
一、简介 hbase是bigtable的开源山寨版本。是建立的hdfs之上,提供高可靠性、高性能、列存储、可伸缩、实时读写的数据库系统。它介于nosql和RDBMS之间,仅能通过主键(row key)和主键的range来检索数据,仅支持单行事务(可通过hive支持来实现多表join等复杂操作)。主要用来存储非结构化和半结构化的松散数据。与hadoop一样,原创 2015-10-13 11:48:26 · 855 阅读 · 0 评论 -
mahout
一、mahout简介 mahout是Apache SoftWare Foundation旗下的一个开源项目,提供一些可扩展的机器学习领域的经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。二、mahout中的数据表示 mahout中的数据以向量的形式存储。 稠密向量:用一个double型的数组实现。当向量具有很原创 2015-10-21 21:08:27 · 847 阅读 · 0 评论 -
MapReduce(五):表关联
给出:Tom LucyTom JackJone LucyJone JackLucy MaryLucy BenJack AliceJack Jesse输出:Tom AliceTom JesseJone AliceJone JesseTom MaryTom BenJone M原创 2015-09-22 14:55:13 · 527 阅读 · 0 评论 -
hadoop2.2.0集群搭建
http://blog.csdn.net/liyong199012/article/details/24019333原创 2015-10-09 21:42:53 · 331 阅读 · 0 评论 -
Mapreduce(二):MR的执行过程分析
1.MR的作业执行流程图 (1).客户端提交一个mr的jar包给JobClient(提交方式:hadoop jar ...)(2).JobClient通过RPC和JobTracker进行通信,返回一个存放jar包的地址(HDFS)和jobId(3).client将jar包写入到HDFS当中(path = hdfs上的地址 + jobId)原创 2015-09-16 15:48:09 · 1033 阅读 · 0 评论 -
MapReduce(三):分区、排序、合并
1.分区 实现分区的步骤:1.1先分析一下具体的业务逻辑,确定大概有多少个分区1.2首先书写一个类,它要继承org.apache.hadoop.mapreduce.Partitioner这个类1.3重写public int getPartition这个方法,根据具体逻辑,读数据库或者配置返回相同的数字1.4在main方法中设置Partioner的类,job.setPa原创 2015-09-18 11:18:39 · 2643 阅读 · 0 评论 -
MapReduce(一):入门级程序wordcount及其分析
1.MapReduce处理过程 map函数接收一个形式的输入,然后同样产生一个形式的中间输出,reduce函数接收一个如形式的输入,然后对这个value集合进行处理,每个reduce产生0或1个输出,reduce的输出也是形式的。2.特别数据类型简介 Hadoop提供了如下内容的数据类型,这些数据类型都实现了WritableComparable接口,以便用这些类型定义的数原创 2015-09-15 17:14:23 · 1256 阅读 · 0 评论 -
Hive
一、hive简介 1. Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL ),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 QL ,它允许熟悉 SQL 的用户查询数据。 2. Hive是SQL解析引擎,它将SQL语句转原创 2015-10-16 18:38:35 · 1088 阅读 · 0 评论 -
hdfs体系
1.Namenode (1)是整个文件系统的管理节点 (2)它维护着整个文件系统的文件目录树,文件/目录的元信息和每个文件对应的数据块列表。 (3)接收用户的操作请求 元数据信息:举例见下图 文件块(block):最基本的存储单位。对于文件内容而言,一个文件的长度大小是size,那么从文件的0偏移开始,按照固定的大小,顺序对文件进行划分并编号,划分好原创 2015-09-08 16:54:21 · 527 阅读 · 0 评论 -
mapreduce将若干小文件合成大文件
1、思路:http://blog.yfteach.com/?p=8152、编码:原创 2015-11-19 15:10:14 · 5079 阅读 · 0 评论