hadoop
文章平均质量分 76
-Heres-
他每做一件小事的时候,都像救命稻草一样抓着。有一天我一看,嚯,好家伙!他抱着的是已经让我仰望的参天大树了。
展开
-
hadoop2.2.0伪分布式搭建
一、Linux环境选择(centOS和VM虚拟机)1、点击VMware快捷方式,右键打开文件所在位置 -> 双击vmnetcfg.exe -> VMnet1 host-only ->修改subnet ip 设置网段:192.168.1.0 子网掩码:255.255.255.0 -> apply -> ok2、回到windows --> 打开网络和共享中心 -> 更改适配器设置 -> 右键V原创 2017-02-26 19:42:01 · 400 阅读 · 0 评论 -
hbase初识
HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为协调工具。主键:主键是用来检索记录的主键,访问hbase ta原创 2017-04-30 16:55:58 · 669 阅读 · 0 评论 -
hive简介与安装
Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL ),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 QL ,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer原创 2017-05-04 22:58:00 · 608 阅读 · 0 评论 -
sqoop数据导入的常见问题及小结
本文首先是讲述sqoop的如何进行数据的导入和导出及其注意点,然后列举了sqoop和mysql在数据导入导出过程中的一些常见错误。原创 2017-04-23 19:05:38 · 2357 阅读 · 0 评论 -
hive之UDF编程
0.要继承org.apache.hadoop.hive.ql.exec.UDF类实现evaluate 方法public class NationUDF extends UDF { public static Map nationMap = new HashMap(); static{ nationMap.put("China", "中国"); nationMap.put("Japa原创 2017-05-07 17:09:44 · 828 阅读 · 0 评论 -
flume介绍之版本及其原理
一.概述Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。支持在系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。Flume 初始的发行版本目前被统称为 Flume OG(original generation),属于 cloudera。但随着 Flume 功能的扩展,Flume OG 代码工程臃肿、转载 2017-05-08 13:41:56 · 5585 阅读 · 0 评论 -
flume安装与配置
flume-1.5.0安装包下载(flume NG):http://download.csdn.net/detail/vinsuan1993/9836334安装环境:centOS-6.5-64位1、需求:在一台机器部署flume,让其收集数据并将数据写到hdfs中。2、安装flume(flume并不依赖于hadoop框架,只依赖JDK和一些hadoop的jar包)2.1、将flum原创 2017-05-08 13:56:19 · 1619 阅读 · 0 评论 -
hadoop之日志分析
需求:通过分析论坛日志,计算论坛关键指标,供运营者决策。这个日志有五个字段:IP,访问时间,访问资源,访问状态,本次流量。 ***浏览量PV 定义:页面浏览量即为PV(Page View),是指所有用户浏览页面的总和,一个独立用户每打开一个页面就被记录1 次。分析:网站总浏览量,可以考核用户对于网站的兴趣,就像收视率对于电视剧一样。但是对于网站运营者来说,更重要的原创 2017-05-08 22:56:10 · 845 阅读 · 0 评论 -
hive常用语法小结
1、创建表(MANAGED_TABLE):create table student(id bigint,name string) row format delimited fields terminated by '\t' stored as sequencefile;注:row format delimited表示一行是一条记录 fields terminated by ...原创 2017-05-06 22:51:25 · 818 阅读 · 0 评论 -
hadoop之RPC
RPC——远程过程调用协议,它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在,如TCP或UDP,为通信程序之间携带信息数据。在OSI网络通信模型中,RPC跨越了传输层和应用层。RPC使得开发包括网络分布式多程序在内的应用程序更加容易。RPC采用客户机/服务器模式。请求程序就是一个客户机,而服务提供程序就是一个服务器。首先,客户原创 2017-05-09 18:52:45 · 424 阅读 · 0 评论 -
hadoop之远程debug
一、JPDA 简介Sun Microsystem 的 Java Platform Debugger Architecture (JPDA) 技术是一个多层架构,使您能够在各种环境中轻松调试 Java 应用程序。JPDA 由两个接口(分别是 JVM Tool Interface 和 JDI)、一个协议(Java Debug Wire Protocol)和两个用于合并它们的软件组件(后端和前端)组原创 2017-05-09 20:24:39 · 690 阅读 · 0 评论 -
Storm使用小结
文章目录引言相关概念storm集群搭建案例需求说明代码与实践提交storm集群运行打成jar包执行效果引言Storm是一个开源的分布式实时计算系统,可以简单、可靠的处理大量的数据流。Storm的部署和运维都很便捷,而且更为重要的是可以使用任意编程语言来开发应用。它支持在线的业务系统,如实时分析,在线机器学习,持续计算,分布式RPC,ETL等等。Storm支持水平扩展,具有高容错性,保证每个消息...原创 2018-09-19 17:08:32 · 663 阅读 · 0 评论 -
kafka小结
创建话题生产者写消息消费者消费消息查看话题状态信息2为leader;Isi:处于同步转态的副本干掉一个一个kafka进程(leader所在节点)代码1>/dev/null :把标准输出重定位到空文件2>&1 :把错误输出到和标准输出一样的地方& :运行在后台原创 2018-09-20 22:02:29 · 239 阅读 · 0 评论 -
HBase Java API 使用示例
在使用HBase Java API 之前,大家首先要了解HBase Java API类,可参考博客:http://www.cnblogs.com/ggjucheng/p/3380267.html几个相关类与HBase数据模型之间的对应关系java类HBase数据模型HBaseAdmin数据库(DataBase)原创 2017-05-02 19:54:12 · 1548 阅读 · 0 评论 -
HBase shell小结
1、进入hbase命令行./hbase shell2、显示帮助:help3、显示hbase中的表list4、创建user表,包含info、data两个列族:create 'user', 'info1', 'data1'create 'user', {NAME => 'info', VERSIONS => '3'}例子:create ‘mygirls’,{NAME...原创 2017-04-30 16:56:24 · 426 阅读 · 0 评论 -
hbase的搭建
hbase的伪分布式(单结点):1.修改hbase-env.sh 将java的路径修改一下。2.修改hbase-site.xml ,将数据库文件保存到本地文件系统。 hbase.rootdir file:///root/hbase3.启动hbase ./start-hbase.sh 4.启动原创 2017-04-30 16:49:10 · 416 阅读 · 0 评论 -
hadoop的第一个程序WordCount
伪代码分析: 执行步骤: 1. map任务处理1.1读取输入文件内容,解析成key、value对。对输入文件的每一行,解析成key、value对。每一个键值对调用一次map函数。1.2写自己的逻辑,对输入的key、value处理,转换成新的key、value输出。1.3对输出的key、value进行分区。1.4对不同分区的数据,按照key进行排序、分组。相同key的...原创 2017-03-09 21:31:53 · 586 阅读 · 0 评论 -
hadoop之Combiners编程
每一个map可能会产生大量的输出,combiner的作用就是在map端对输出先做一次合并,以减少传输到reducer的数据量。combiner最基本是实现本地key的归并,combiner具有类似本地的reduce功能。如果不用combiner,那么,所有的结果都是reduce完成,效率会相对低下。使用combiner,先完成的map会在本地聚合,提升速度。注意:Com原创 2017-03-27 21:39:59 · 592 阅读 · 0 评论 -
hadoop之倒排索引
倒排索引基础知识可以参博客:http://blog.csdn.net/hguisu/article/details/7962350。需求:a.txt内容:hello tomhello jerryhello kittyhello worldhello tomb.txt内容:hello jerryhello tomhello world需要我们在原创 2017-04-06 22:23:11 · 466 阅读 · 0 评论 -
hadoop的Shuffle机制
如图mapreduce的shuffle和排序:Map task: 1.每个map有一个环形内存缓冲区,用于存储任务的输出。默认大小100MB(io.sort.mb属性),一旦达到阀值0.8(io.sort.spill.percent)(80M),一个后台线程把内容写到(spill)磁盘的指定目录(mapred.local.dir)下的新建的一个溢出写文件(这种小文件一旦写满,...原创 2017-03-28 21:44:39 · 494 阅读 · 0 评论 -
如何在eclipse中使用maven
1.解压eclipse(已经集成了maven插件)2.new -->project--->maven--->maven project3.下一步,如图:(别忘记勾上两个勾)4.如图:5.完成新建6.我们可以通过联网下载maven的包依赖,也可以手动添加已经下载好的包依赖,在centOS中,我们将包依赖解压到用户家目录下,如root用户,就解压在/root原创 2017-03-21 22:17:35 · 526 阅读 · 0 评论 -
hadoop之Partitioner编程
Mapreduce默认的partitioner是HashPartitioner。除了这个mapreduce还提供了3种partitioner。Partitioner是partitioner的基类,如果需要定制partitioner也需要继承该类。1.实现分区的步骤:1.1先分析一下具体的业务逻辑(如根据地区进行分区),确定大概有多少个分区;1.2首先书写一个类,它要继承org.ap原创 2017-03-25 22:20:57 · 487 阅读 · 0 评论 -
hadoop之求和和自定义排序编程
排序MR默认是按key2进行排序的,如果想自定义排序规则,被排序的对象要实现WritableComparable接口,在compareTo方法中实现排序规则,然后将这个对象当做k2,即可完成排序。注:1.key1 value1 是map的输入;key2 value2是reduce的输入。需求分析:数据:zhangsan@163.com 60000 2014-02-2原创 2017-03-26 21:05:09 · 919 阅读 · 0 评论 -
zookeeper的搭建
简介:»Zookeeper是 Google 的 Chubby一个开源的实现,是 Hadoop 的分布式协调服务»它包含一个简单的原语集,分布式应用程序可以基于它实现同步服务,配置维护和命名服务等 »Hadoop2.0,使用Zookeeper的事件处理确保整个集群只有一个活跃的NameNode,存储配置信息等.»HBase,使用Zookeeper的事件处理确保整个集群只有一个HM...转载 2017-04-11 18:44:32 · 522 阅读 · 0 评论 -
hadoop上传文件报错
报错原因:could only be replicated to 0 nodes instead of minReplication (=1). There are 2 datanod1.首先检查hadoop各结点的防火墙是否已经关闭,没有关闭,使用service iptables stop ,并关闭开机启动,chkconfig iptables off;2.检查是否离开安全模式,没有离原创 2017-04-18 14:55:33 · 2092 阅读 · 0 评论 -
hadoop分布式搭建(+zookeeper,6台机器)
前期准备(这里使用的centOS6,hadoop2.2.0【这是64位的hadoop2.2.0的安装包和源码包下载地址:http://download.csdn.net/detail/vinsuan1993/9812599】):1.修改Linux主机名2.修改IP3.修改主机名和IP的映射关系######注意######如果是租用的服务器或是使用的云主机(如华为用主机、阿里云主机等原创 2017-04-13 11:18:37 · 2807 阅读 · 0 评论 -
wordcount程序卡住了
问题,内置wordcount程序运行到INFO mapreduce.Job: Running job: job_1492509956955_0001卡住了,很长时间不动:17/04/18 18:00:30 INFO client.RMProxy: Connecting to ResourceManager at heres04/192.168.2.113:803217/04/18 18:00原创 2017-04-18 18:54:53 · 3226 阅读 · 0 评论 -
hbase集群部分节点HRegionServer启动后自动关闭的问题
我有四个HRegionServer节点。发现输入./start-hbase.sh后,只启动了两个节点,而且后来两个节点又挂掉了。查看日志:more hbase-root-regionserver-heres01.log报错如下:2017-04-30 14:02:05,999 FATAL [regionserver60020] regionserver.HRegionServer原创 2017-04-30 16:47:57 · 4220 阅读 · 0 评论 -
关于程序执行一段时间就卡死的问题
场景描述最近实习忙了一个子项目,该项目主要开发一个实时数据转化引擎。说白一点,就是利用kafkaStreams读取kafka中的数据,然后将这些数据入库到mysql或者hbase中。这个引擎是单独开发,然后打成一个jar包,通过父项目的调度程序拉起来执行(其实就是执行一个shell脚本)。问题描述后来子项目开发完后,我们自己手动调这个程序jar,程序跑得很好;通过父项目的调度系统拉起该ja...原创 2019-01-17 15:51:09 · 4265 阅读 · 0 评论