hadoop学习笔记
文章平均质量分 86
_tommy
这个作者很懒,什么都没留下…
展开
-
交互式查询工具impala
交互式查询工具impala主要内容第 1 部分 Impala概述(Impala是什么,优势,劣势,与Hive对⽐)第 2 部分 Impala的安装(制作本地Yum源⽅式安装)第 3 部分 Impala的架构原理(有哪些组件,组件的作⽤,查询流程,查询计划)第 4 部分 Impala的使⽤(使⽤与Hive类似,编写sql⽅式;Impala的DDL,查询语法,导⼊数据)第 5 部分 Impala的Java 开发(Java+C++,使⽤JDBC⽅式查询Impala)第 6 部分 Impala的优化(原创 2021-07-12 02:16:47 · 819 阅读 · 1 评论 -
自定义分区
自定义分区需求说明场景:实际生产中需求变化多端,默认分区规则往往不能满足需求,需要结合业务逻辑来灵活控制分区规则以及分区数量。如何定制自己需要的分区规则?具体步骤:自定义类继承Partitioner,重写getPartition()方法在Driver驱动中,指定使用自定义Partitioner在Driver驱动中,要根据自定义Partitioner的逻辑设置相应数量的ReduceTask数量。需求: 按照不同的appkey把记录输出到不同的分区中原始日志格式001 001577c3原创 2021-07-01 20:21:09 · 384 阅读 · 0 评论 -
序列化Writable接口
序列化Writable接口基本的序列化类型往往不能满足所有需求,比如在Hadoop框架内部传递一个自定义bean对象,那么对该对象就要实现Writable序列化接口。编写套路必须实现Writable接口反序列化时,需要反射调用空参构造函数,所以必须有空参构造public CustomBean() { super();}重写序列化方法@Overridepublic void write(DataOutput out) throws IOException { ....}原创 2021-07-01 20:20:21 · 592 阅读 · 1 评论 -
大数据简介
大数据简介大数据的定义大数据是指无法在一定时间范围内用常规软件工具进行捕捉,管理和处理的数据集合,是需要新处理模式才能具有更强的决策力,洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据的特点大数据的特点可以用“5V”来描述,大量 Volume :采集、存储和计算的数据量都非常大。高速 Velocity(低延迟):在大数据时代,数据的创建、存储、分析都要求被高速处理,比如电商网站的个性化推荐尽 可能要求实时完成推荐,这也是大数据区别于传统数据挖掘的显著特征。多原创 2021-07-01 20:19:44 · 370 阅读 · 0 评论 -
Hbase集群搭建
简单说一下hbase 1、HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目原创 2017-05-20 10:26:35 · 706 阅读 · 0 评论 -
hadoop,hbase,hive,zookeeper版本整合兼容性问题总结
当我们想整合Hadoop,Hbase,Hive,zookeeper的时候,如果刚入门,可能认为这是比较简单的问题。但是当你自己真正想整合的时候,却会遇到很多的问题。1.hadoop与hbase哪些版本兼容?2.hadoop与hive哪些版本兼容?3.hbase与hive哪些版本兼容?4.hbase与zookeeper哪些版本兼容?所以当我们真正想做整合的时候,我们需要解决上面四个问题,有些同转载 2017-06-26 15:54:27 · 1046 阅读 · 1 评论 -
CDH搭建hadoop集群
目的:CDH5.8.0离线搭建hadoop环境关于CDH和ClouderaManagerCDH (Cloudera’s Distribution, includingApache Hadoop),是Hadoop众多分支中的一种,由Cloudera维护,基于稳定版本的Apache Hadoop构建,并集成了很多补丁,可直接用于生产环境。Cloudera Manager(本文以下简称为CM)则原创 2017-09-04 15:02:38 · 1999 阅读 · 0 评论 -
centos7 设置下使用yum安装mysql并创建用户
CentOS7的yum源中默认好像是没有mysql的。为了解决这个问题,我们要先下载mysql的repo源下载mysql的repo源wget http://repo.mysql.com/mysql-community-release-el7-5.noarch.rpm安装mysql-community-release-el7-5.noarch.rpm包sudo rpm -ivh mysql-c转载 2017-09-26 11:21:14 · 1329 阅读 · 0 评论 -
hadoop集群 NTP时间同步
四台centos:master slave1 slave2 slave3一:编辑/etc/ntp.conf $ sudo vi /etc/ntp.conf 同时在后面加上 server 127.127.1.0 Fudge 127.127.1.0 stratum 10至于第一个红圈写你的网段,后面时子网掩码,涉及到网络的一点知识。二:重新启动服务: service ntpd sto原创 2017-08-25 14:58:44 · 1178 阅读 · 0 评论 -
Secondary NameNode的作用
前言最近刚接触Hadoop, 一直没有弄明白NameNode和Secondary NameNode的区别和关系。很多人都认为,Secondary NameNode是NameNode的备份,是为了防止NameNode的单点失败的,直到读了这篇文章Secondary Namenode - What it really do? (需翻墙)才发现并不是这样。文章写的很通俗易懂,现将其翻译如下:Seco转载 2017-05-22 14:51:16 · 338 阅读 · 0 评论 -
hadoop出现hadoop2.X部署警告: Unable to load native-hadoop library 总结
首先看一下你的hadoop是32位还是64位,我们查看本地库即可。即进入$hadoop_home/lib/native,使用file命令file libhadoop.so.1.0.0然后查看一下linux的版本uname -a Linux hostname 2.6.18-274.el5 #1 SMP Fri Jul 8 17:36:59 EDT 2011 x86_64 x86_64 x86_64原创 2017-06-01 14:23:11 · 682 阅读 · 0 评论 -
notepad++ 快键键大全
Notepad++ 快捷键 大全 Ctrl+C 复制 Ctrl+X 剪切 Ctrl+V 粘贴 Ctrl+Z 撤消 Ctrl+Y 恢复 Ctrl+A 全选 Ctrl+F 键查找对话框启动 Ctrl+H 查找/替换对话框 Ctrl+D 复制并粘贴当行Ctrl+L 删除当前行 Ctrl+T 当行向上移动一行 F3 查找下一个 Shift+F3 查找上一个 Ctrl+Shift+F原创 2017-06-01 13:46:22 · 423 阅读 · 0 评论 -
Partitioner编程
partitioner编程 目的: 针对上篇博客中输出的结果放在不同的分区中为什么要用分区? 可以按照不同的属性分别存放,统计比较方便。 例如:统计全国各个市的短信和电话使用情况,考虑到全国各地的人经常会出差,以及大量的旅游人员,比如北京的人,出差或旅游上海,他在上海的电话以及短信使用情况就会保存在离他较为近的基站中,这样,信息较为分散,查询效率比较低,使用分区,将同一个市中的短信及原创 2017-05-15 17:59:50 · 337 阅读 · 0 评论 -
hadoop排序
目的:用hadoop做一个简单的排序项目准备文件项目分析代码运行jar包准备文件目的文件trade_info.txt 文件含义 以上文件可以理解为某淘宝用户的收入与支出情况(简单理解) 第一列:淘宝账号 第二列:某一订单的收入 第三列:某一订单的支出(退款情况) 第四列:订单时间排序规则 对商家的总收入和总支出进行求和 按照商家的总收入从高到低进行原创 2017-05-16 16:43:29 · 634 阅读 · 0 评论 -
Combiners
Combiners怎么理解combiners? 1、每一个map可能会产生大量的输出,combiner的作用就是在map端对输出先做一次合并,以减少传输到reducer的数据量。 2、combiner最基本是实现本地key的归并,combiner具有类似本地的reduce功能。 3、如果不用combiner,那么,所有的结果都是reduce完成,效率会相对低下。使用c原创 2017-05-16 16:48:23 · 419 阅读 · 0 评论 -
Hadoop Shuffle运行原理
Shufflehadoop的核心思想是MapReduce,而MapReduce的核心思想又是Shuffle。shuffle的主要工作是从Map结束到Reduce开始之间的过程,所以了解shuffle的运行原理也是必要的阶段。首先来看下面一张图。 shuffle阶段又可以分为Map端的shuffle和Reduce端的shuffle。Map阶段的Shuffle 1、map端(有多个map,这里只详原创 2017-05-17 11:50:48 · 1763 阅读 · 0 评论 -
WordCount代码编写
本文是在win下装的linux虚拟机,在linux安装的hadoop环境,从而实现一个简单的单词计数功能。 目的:linux下有words.txt文件,words.txt 文本内容,对文本中的单词进行统计。代码流程MapReduce通过job对象组装打jar包代码流程分析具体的业务逻辑,确定输入数据的样式。自定义一个类,这个类要继承Mapper类,并重写map方法,在map方法中原创 2017-04-26 11:06:07 · 823 阅读 · 0 评论 -
hadoop之倒排索引
倒排索引不懂倒排索引含义的见以下链接 倒排索引详解目的:用hadoop做一个简单的倒排索引准备文件几个简单的文本文件: a.txt hello tom hello kitty hello jackb.txt hello jerry hello tom hello timc.txt hello tom hello jack实现原理分析 1、最后我原创 2017-05-17 15:55:08 · 700 阅读 · 0 评论 -
WARNING: REMOTE HOST IDENTIFICATION HAS CHANGED解决方法
WARNING: REMOTE HOST IDENTIFICATION HAS CHANGED解决方法 今天在将文件夹从一台虚拟机拷贝到另一台虚拟机时出现 REMOTE HOST IDENTIFICATION HAS CHANGED这个错误 scp -r /master/ root@master2:/ 立刻想到是ssh的问题, 然后执行ssh master mkdir /cishi 果然原创 2017-05-17 22:20:40 · 955 阅读 · 0 评论 -
MR例子(统计各个手机号在某段时间内产生的总流量)
目的:统计各个手机号在某段时间类产生的总流量准备文件 (已经上传到hdfs上 文件名data.txt) 上图中对应的字段如下图 文件及代码分析 所给的文件是每一个用户每一次上网产生的流量,先如今需要将相同用户进行聚合。 最后输出的结果字段:手机号 上行总流量 下行总流量 总流量 map的输入输出都是以key value 形式存在。输入的键值对为K1为整数 val原创 2017-04-26 13:56:21 · 2297 阅读 · 0 评论 -
hadoop zookeeper hive hbase kylin等的部署
[kylin] 部署kylin服务 官网:http://kylin.apache.org/社区:https://github.com/KylinOLAP/Kylin/issueshttp://apache-kylin.74782.x6.nabble.com/ 源码:https://github.com/ap转载 2017-05-23 12:57:17 · 2296 阅读 · 0 评论