![](https://img-blog.csdnimg.cn/20190927151101105.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
ZK+Hadoop+Hive+Hbase
ZK+Hadoop+Hive+Hbase+Flume+Sqoop+Impala
专注_每天进步一点点
成为健康快乐长寿有价值的人,拥有明亮灵动的眼睛,平静谦和的微笑。
展开
-
Hive中的窗口函数都忘记了,还好意思说自己搞过大数据?
官网位置:Hive窗口函数-官网地址原创 2022-04-20 22:18:41 · 1826 阅读 · 0 评论 -
Flume概念与原理、与Kafka优势对比
1 .背景 flume是由cloudera软件公司产出的可分布式日志收集系统,后与2009年被捐赠了apache软件基金会,为hadoop相关组件之一。尤其近几年随着flume的不断被完善以及升级版本的逐一推出,特别是flume-ng;同时flume内部的各种组件不断丰富,用户在开发的过程中使用的便利性得到很大的改善,现已成为apache top项目之一.2 .概述 1....转载 2019-05-21 21:51:56 · 151 阅读 · 0 评论 -
flume使用之flume+hive 实现日志离线收集、分析
在如今互联网行业中,数据的收集特别是日志数据的收集已经成为了系统的标配。将用户行为日志或者线上系统生产的数据通过flume收集起来,存放到数据仓库(hive)中,然后离线通过sql进行统计分析,这一套数据流的建设对系统有非常重要的意义。1、思路:1)线上系统通过log4j将数据打印到本地磁盘上;2)在线上系统服务器上安装flume,作为agent使用exec source将...转载 2020-03-26 15:34:13 · 587 阅读 · 0 评论 -
Hadoop Yarn REST API未授权漏洞利用挖矿分析
欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~一、背景情况5月5日腾讯云安全曾针对攻击者利用Hadoop Yarn资源管理系统REST API未授权漏洞对服务器进行攻击,攻击者可以在未授权的情况下远程执行代码的安全问题进行预警,在预警的前后我们曾多次捕获相关的攻击案例,其中就包含利用该问题进行挖矿,我们针对其中一个案例进行分析并提供响应的安全建议和解决方案。二、 漏洞说明...转载 2020-01-22 11:09:50 · 2030 阅读 · 0 评论 -
大数据--工作流程调度系统--替代传统的crontab
1. 工作流程调度系统产生背景一个完整的数据分析系统通常都是由大量任务单元组成 : shell脚本程序 , java程序 , MapReduce程序 , hive脚本等各个任务单元之间存在时间先后依赖关系为了更好地组织起这样的复杂执行计划 , 需要一个工作流程调度系统来调度执行2. 工作流程调度实现方式简单的任务调度 : 直接使用linux的crontab来定义 ...转载 2020-01-17 11:23:44 · 327 阅读 · 0 评论 -
Hadoop是什么,能干什么,怎么使用
本文档实现目标希望用比较容易理解的语言解释Hadoop是个什么样的工具,回答Hadoop是什么,能干什么,怎么使用三个问题,尽量不涉及技术细节。1、Hadoop是什么1.1、小故事版本的解释小明接到一个任务:计算一个100M的文本文件中的单词的个数,这个文本文件有若干行,每行有若干个单词,每行的单词与单词之间都是以空格键分开的。对于处理这种100M量级数据的计算任务,小明感觉很轻松...原创 2018-09-29 12:32:52 · 58865 阅读 · 23 评论 -
Hadoop十年解读与发展预测
Hadoop于2006年1月28日诞生,成立的一开始,“Hadoop”这个单词只代表了两个组件——HDFS和MapReduce。到现在,这个单词代表的是“核心”(即Core Hadoop项目)以及与之相关的一个不断成长的生态系统。这个和Linux非常类似,都是由一个核心和一个生态系统组成。下图展示了Hadoop最近十年的发展:Hadoop编年史•2002年10月,Doug Cutti...转载 2019-07-09 11:10:03 · 469 阅读 · 0 评论 -
大数据分析的下一代架构--IOTA架构[上]
原文地址: https://blog.csdn.net/oDaiLiDong/article/details/80035658IOTA是什么?你是否为下一代大数据架构做好准备?经过这么多年的发展,已经从大数据1.0的BI/Datawarehouse时代,经过大数据2.0的Web/APP过渡,进入到了IOT的大数据3.0时代,而随之而来的是数据架构的变化。▌Lambda架构在过...转载 2019-03-27 15:47:30 · 233 阅读 · 0 评论 -
MapReduce:详解Shuffle过程
Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce, Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做MapReduce job 性能调优的工作,需要深入代码研究MapReduce的运行机制,这才对Shuffle探了个究竟。考虑到之前我在看相关资料而看不懂时很恼火,所以在这...转载 2018-09-25 14:32:15 · 164 阅读 · 0 评论 -
使用Hive&R从Hadoop集群中提取数据进行分析
一个简单的例子!环境:CentOS6.5Hadoop集群、Hive、R、RHive,具体安装及调试方法见博客内文档。1、分析题目--有一个用户数据样本(表名huserinfo)10万数据左右;--其中有一个字段:身份证号(id_card)--身份证号前两位代表:省,例如:11北京,12天津,13河北;--身份证前x位对照表(表名hidcard_province)--要求1:...转载 2019-02-21 11:07:23 · 756 阅读 · 0 评论 -
Hive性能优化
1.概述 继续《那些年使用Hive踩过的坑》一文中的剩余部分,本篇博客赘述了在工作中总结Hive的常用优化手段和在工作中使用Hive出现的问题。下面开始本篇文章的优化介绍。2.介绍 首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题?数据量大不是问题,数据倾斜是个问题。 jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇...转载 2018-10-10 17:58:50 · 100 阅读 · 0 评论 -
Hadoop项目实战---黑马论坛日志分析
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/a2011480169/article/details/519950611、项目描述通过对黑马技术论坛的apache common日志进行分析,计算论坛关键指标,供运营者决策。2、数据情况每行记录有5部分组成:1.访问ip2.访问时间3.访问资源【跟着两个访问的Url】4.访问状态...转载 2019-04-01 15:12:09 · 645 阅读 · 0 评论 -
Hadoop Hive sql语法详解
原文地址: https://blog.csdn.net/hguisu/article/details/7256833 Hive 是基于Hadoop 构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop 分布式文件系统中的数据,可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行,通过自己...转载 2019-04-01 15:23:36 · 247 阅读 · 0 评论 -
Hive内部表和外部表的区别详解1
原文地址: https://blog.csdn.net/qq_36743482/article/details/78393678内部表&外部表未被external修饰的是内部表(managed table),被external修饰的为外部表(external table);区别:内部表数据由Hive自身管理,外部表数据由HDFS管理;内部表数据存储的位置是hive.metas...转载 2019-04-01 16:46:38 · 248 阅读 · 0 评论 -
Hive内部表和外部表的区别详解2
1.创建内部表与外部表的区别是什么?2.external关键字的作用是什么?3.外部表与内部表的区别是什么?4.删除表的时候,内部表与外部表有什么区别?5.load data local inpath '/home/wyp/data/wyp.txt' into table wyp;的过程是什么样子的?6.磁盘,hdfs,hive表他们之间的过程是什么样子的?好了,进入正题。今天我们要探讨的话题是...转载 2019-04-01 16:59:34 · 187 阅读 · 0 评论 -
厦门大学数据库实验室
厦门大学数据库实验室:http://dblab.xmu.edu.cn/blog/1134/原创 2019-04-08 16:55:15 · 899 阅读 · 0 评论 -
MapReduce中各个阶段的分析
MapReduce中各个阶段的分析:在MapReduce的各个阶段:在文件被读入的时候调用的是Inputformat方法读入的。inputformat——>recordreader——>read(一行)。在这里读入一行,返回的是(k,v)的形式,key是行号的偏移量,value的值是这一行的内容。在上述的过程中,之后是调用map方法,将以上内容转换成正真的(key,v...转载 2019-05-13 14:38:03 · 434 阅读 · 0 评论 -
Zookeeper的功能以及工作原理
1.ZooKeeper是什么?ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,它是集群的管理者,监视着集群中各个节点的状态根据节点提交的反馈进行下一步合理操作。最终,将简单易用的接口和性能高效、功能稳定的系统提供给用户2.ZooKeeper提供了什么?1)文件系统2)通知机制3.Zookeeper文件系统每个子目录项...转载 2019-06-05 11:03:00 · 101 阅读 · 0 评论 -
CDH 和ambari之间的比较
1 什么是CDH,ambari?Apache Ambari是一种基于Web的工具,支持Apache Hadoop集群的供应、管理和监控。Ambari已支持大多数Hadoop组件,包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeper、Sqoop和Hcatalog等。Apache Ambari 支持HDFS、MapReduce、Hive、Pig、Hbase、...转载 2019-06-05 11:22:38 · 383 阅读 · 0 评论 -
InputFormat数据输入和OutPutFormat数据输出
原文地址: https://blog.csdn.net/qq_31807385/article/details/84315821InputFormat的作用:切片把切片打散成< K ,V >主要分为下面这几种不同的数据输入的方式:FileInputFormat 按照文件的块大小进行切片 该类没有实现 TextInputFormat 按照...转载 2019-06-03 18:05:06 · 279 阅读 · 0 评论 -
想高效学会Hadoop,你要按照这个路线
学习hadoop,首先我们要知道hadoop是什么?说到底Hadoop只是一项分布式系统的工具,我们在学习的时候要理解分布式系统设计中的原则以及方法,只有这样才能以不变应万变。再一个就是一定要动手,有什么案例,有什么项目一定要亲自动手去敲。学习的时候不要害怕遇到问题,问题是最好的老师。其实学习的过程就是逐渐解决问题的过程,当你遇到的问题越来越少的时候,就说明已经学的差不多了。下面...转载 2019-07-09 14:33:24 · 206 阅读 · 0 评论 -
Hive做数据分析
原文地址: https://blog.csdn.net/xnby/article/details/51262615我们使用Flume把第一手的日志导入到了Hadoop中,接下来就要对导入的数据进行分析了。分析时,可以开发Hadoop的MapReduce程序,这样有开发过程比较慢的缺点。很多人都习惯使用sql语句来进行数据分析和查询,Hive很好的满足了这个要求。1、把Hadoop的日志...转载 2019-02-21 15:28:33 · 650 阅读 · 0 评论 -
Hive脚本的Crontab定时调度
原文地址:https://blog.csdn.net/qq_41623990/article/details/81097108 清空hive表的hive脚本,并用crontal定时进行清空 1.建立一个test.hsql脚本,里面写入清空表的语句: TRUNCATE TABLE data.fact_teacher_info_stunum; TRUNC...转载 2019-02-21 15:45:33 · 1330 阅读 · 0 评论 -
Hadoop的MapReduce和Spark的Shuffle过程的详解与对比及优化
大数据的分布式计算框架目前使用的最多的就是Hadoop的MapReduce和Spark,MapReducehe和Spark之间的最大区别是前者较偏向于离线处理,而后者重视实时性,下面主要介绍mapReducehe和Spark两者的shuffle过程。MapReduce的Shuffle过程介绍Shuffle的本义是洗牌、混洗,把一组有一定规则的数据尽量转换成一组无规则的数据,越随机越好。Ma...转载 2018-10-08 15:08:49 · 202 阅读 · 0 评论 -
十道海量数据处理面试题与十个方法大总结
十道海量数据处理面试题与十个方法大总结 第一部分、十道海量数据处理面试题1、海量日志数据,提取出某日访问百度次数最多的那个IP。 首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法,比如模1000,把整个大文件映射为1000个小文件,再找出每个小文中出现频率最大的IP(可以采用ha...转载 2018-10-08 17:45:26 · 106 阅读 · 0 评论 -
详细讲解MapReduce过程
关于整理此文百分之七十摘自我认为讲的很清楚的博客,我都贴了地址,很感谢这些博主的无私奉献!我再将一些自己的实例代码和知识点的补充加入进去,希望能更好的理解mapreduce的整个过程。从启动和资源调度来看MapReduce过程首先-先了解一下必知概念From:MapReduce工作原理图文详解,JobTracker和TaskTracker概述客户端(Client):编写...转载 2018-10-10 17:02:37 · 1401 阅读 · 0 评论 -
流式数据、批式数据、实时数据、历史数据的区别
原文地址:https://blog.csdn.net/HeatDeath/article/details/78986025大数据处理系统可分为批式(batch)大数据和流式(streaming)大数据两类。其中,批式大数据又被称为历史大数据,流式大数据又被称为实时大数据。复杂的批量数据处理(batch data processing),通常的时间跨度在数十分钟到数小时之间。基于历史数据...转载 2018-12-10 10:59:15 · 10327 阅读 · 0 评论 -
HDFS为什么使用大块(比如64MB),以及为什么推荐流方式访问文件
原文地址:https://blog.csdn.net/BrotherDong90/article/details/46360249HDFS为什么使用大块,如64MB,128MB1,减少NameNode的压力。namenode用来存储hdfs上文件的元数据信息,如果是小文件,会导致产生大量的元数据信息。hdfs中每个文件,目录,和数据块的存储信息大约在150字节。这样,如果大量小文件会导致...转载 2018-12-10 11:01:59 · 645 阅读 · 0 评论 -
HDFS读写流程(史上最精炼详细)
原文地址:https://blog.csdn.net/whdxjbw/article/details/81072207开始之前先看看其基本属性,HDFS(Hadoop Distributed File System)是GFS的开源实现。特点如下:能够运行在廉价机器上,硬件出错常态,需要具备高容错性 流式数据访问,而不是随机读写 面向大规模数据集,能够进行批处理、能够横向扩展 简单...转载 2018-12-10 11:26:03 · 203 阅读 · 0 评论 -
本地运行hadoop-Failed to locate the winutils binary in the hadoop binary path-转载
转自:http://www.cnblogs.com/zq-inlook/p/4386216.html之前在mac上调试hadoop程序(mac之前配置过hadoop环境)一直都是正常的。因为工作需要,需要在windows上先调试该程序,然后再转到linux下。程序运行的过程中,报Failed to locate the winutils binary in the hadoop binary ...转载 2019-03-20 17:02:29 · 217 阅读 · 0 评论 -
分布式系统的本质
分布式系统的本质其实就是这两个问题站在全局角度看,分布式系统的本质是什么?其实说白了,就是两点:“分治”和“冗余”。分治和冗余使得分布式系统具备了核心价值,那么它的价值是什么?分布式系统的价值谈到分布式系统的价值,可能就得从 1953 年说起了。在这一年,埃布·格罗希(Herb Grosch)提出了一个他观察得出的规律——Grosch 定律。维基百科中是这样描述的:计算机性能随着成...转载 2018-12-26 22:02:34 · 207 阅读 · 0 评论 -
分布式存储
转自:http://stor.51cto.com/art/201711/556946.htmhttp://www.cnblogs.com/xuqp/p/9449732.html一、存储类型 二、文件系统 三、存储介质 四、Raid和副本 五、SRVSAN的架构 六、SRVSAN的安全隐患 七、解决的方法一、存储类型一般情况下,我们将存储分成了4种类型,基于本机的DAS和网...转载 2018-12-26 21:58:01 · 279 阅读 · 0 评论 -
Hive中的UDF函数和TRANSFORM
1、编写UDF函数,来将原来创建的buck_ip_test表中的英文国籍转换成中文iptest.txt文件内容: 1 张三 192.168.1.1 china 2 李四 192.168.1.2 china 3 王五 192.168.1.3 china 4 makjon 192.168.1.4 china 1 aa 192....转载 2019-03-26 16:22:51 · 500 阅读 · 0 评论 -
Hive的thrift服务
Hive具有一个可选的组件叫HiveServer或HiveThrift,其允许通过指定端口访问Hive。启动Thrift Server进入Hive安装目录 使用如下命令开启服务hive --service hiveserver &检查HiveServer是否启动成功使用如下命令netstat -nl | grep 10000配置Groovy使用Hive...转载 2019-03-19 17:13:23 · 1253 阅读 · 0 评论 -
Hive和Hbase各自的应用场景
1、在介绍Hive和Hbase之前需要先介绍下Hadoop,Hadoop于2006年1月28日诞生,成立的一开始,“Hadoop”这个单词只代表了两个组件——HDFS和MapReduce。HDFS运行在通用硬件(指的是不需要价格昂贵的服务器)上的分布式文件系统,是大数据存储的组件;MapReduce是Hadoop的计算引擎。发展到现在,“Hadoop”这个单词代表的是“核心”(即Core Hado...转载 2019-07-10 09:44:37 · 2381 阅读 · 1 评论