bigData
文章平均质量分 55
荒野求思
人生就像写代码,总有bug出现
展开
-
大数据技术——从海量数据的存储到海量数据的计算
目录海量数据的存储海量数据的计算大数据处理的主要应用场景前言:大数据技术诞生之初,就是为了解决海量数据的存储和计算问题。大数据起源于Google。Google是当时世界上(尽管目前也是)最大的搜索引擎公司,由于互联网时代的到来,Google积累了海量的用户,海量用户意味着海量的数据,谷歌需要将这些数据保存下来,传统的保存数据的方式已经满足不了Google的需求了。首...原创 2019-05-05 16:14:02 · 4508 阅读 · 0 评论 -
HA高可用自动故障转移(最新,最详)
目录概述:图解:集群规划:配置zookeeper集群:HDFS的NameNode的HA高可用自动故障转移:YARN的HA高可用自动故障转移:测试: 关闭集群:Hadoop集群相关的开启关闭命令: 概述:在了解自动故障转移之前,有必要了解一下手动故障转移,下面是文章的地址:HA高可用手动故障转移 手动进行故障转移,在该模式下,...原创 2018-11-28 20:20:28 · 2673 阅读 · 1 评论 -
HA高可用手动故障转移
目录HA相关概念:同步问题:脑裂问题:手动故障转移:为什么要先启动journalnode?HA相关概念:1)所谓HA(high available),即高可用(7*24小时不中断服务)。2)实现高可用最关键的策略是消除单点故障(single point of failure,SPOF)。3)单点故障是一个组件发生故障,就会导致整个系统无法运行。4)HA严格来...原创 2018-11-28 16:43:38 · 735 阅读 · 1 评论 -
HDFS的块大小和MapReduce切片大小的区别和联系
先看下面的题目:参考下面的MR系统的场景:--hdfs块的大小为64MB--输入类型为FileInputFormat有三个文件的大小分别是:64KB 65MB 127MBHadoop框架会把这些文件拆分为多少块?答案如下:5块:64K,64M,1M, 64M,63M我之前的理解是4块,错误的原因是没有真正的理解数据的分块和数据的切片之间的关系,下面来阐述有一下:...原创 2018-11-30 19:46:32 · 3898 阅读 · 1 评论 -
Hive的常见属性配置和Hive的常见指令
目录Hive的数据仓库的配置: 查询后信息显示配置:Hive运行日志信息的配置:Hive的常见指令:Hive的数据仓库的配置:Hive的数据仓库是Hive存储真实的数据的地方,这些数据存储在HDFS上,也即Hive的metastore存储了关于表的字段,结构等信息,而Hive的数据仓库存放的是Metastore中的表中的数据。这些数据存放的默认地址是:/user/hive/...原创 2018-11-30 18:42:09 · 731 阅读 · 0 评论 -
Hive的安装和更为Hive的数据库为MySQL,使用JDBC连接Hive
目录前言:Hive的安装:更为Hive的数据库为MySQL:多窗口测试:HiveJDBC访问:前言:首先Hive会将数据存储在HDFS上,Hive的本质是将HQL转化成MapReduce,Hive还需要YARN进行资源调度,所以安装Hive的前提是,你已经搭建好了Hadoop集群,关于Hadoop集群的搭建,请参见下面的这篇文章:15分钟,搭建Hadoop集群...原创 2018-11-30 18:08:19 · 1496 阅读 · 0 评论 -
Hadoop的压缩与Hive中设置Map和Reduce压缩
目录综述:MR支持的压缩方式:压缩格式和对应的编码解码器:压缩性能的比较: 压缩参数的配置:Hive中指定Map输出压缩:Hive中指定Reducer输出压缩:综述:Hadoop的数据压缩主要在三个地方:Map数据的输入;Mapper数据的输出;Reduce数据的输出;MR支持的压缩方式: 压缩格式 工具 ...原创 2018-12-04 18:54:34 · 904 阅读 · 0 评论 -
HIve自定义函数(自定义UDF函数)
步骤如下:1,导入依赖<dependencies> <!-- https://mvnrepository.com/artifact/org.apache.hive/hive-exec --> <dependency> <groupId>org.apache.hive</groupId> <artifact...原创 2018-12-04 18:08:51 · 400 阅读 · 0 评论 -
如何使用MapReduce实现TopN
输出流量使用量在前10的用户信息:数据源:13470253144 180 180 36013509468723 7335 110349 11768413560439638 918 4938 585613568436656 3597 25635 2923213590439668 1116 954 207013630577991 6960 690 765013682846555 19...原创 2018-11-26 19:38:27 · 1717 阅读 · 0 评论 -
Hive的Rank排名(rank函数,dense_rank函数,row_numer函数)
目录总结:案例实操:总结:RANK() 排序相同时会重复,总数不会变DENSE_RANK() 排序相同时会重复,总数会减少ROW_NUMBER() 会根据顺序计算这三个函数常常和开窗函数结合在一起使用案例实操:1,计算没门科目的成绩排名:[isea@hadoop108 datas]$ cat score.txt 悟空 语文 87悟空 数学 95......原创 2018-12-04 09:45:55 · 35625 阅读 · 4 评论 -
Hive的表操作(表名的修改,列的修改)
关于表的修改命令如下:包括更改表名,给表增加字段,查看表的信息,表字段的替换1,表名的修改:0: jdbc:hive2://hadoop108:10000> show tables;+-----------+--+| tab_name |+-----------+--+| stu1 || stu2 || stu3 || stu_ex1 ...原创 2018-12-04 08:24:34 · 2516 阅读 · 0 评论 -
Hive的常用函数(nvl,case when,行转列,列转行,爆炸函数)
目录综述:NVL:case when:行转列,CONCAT,CONCAT_WS,COLLECT_SET:列转行:EXPLODE,LATERAL VIEW:综述:在Hive中有六类常用的函数,除了本文讲述的四类函数之外,还有rank函数,和开窗函数,Hive中的自定义函数一般被分成了三类UDF:uer-defined-function 一进一出UDAF:user...原创 2018-12-06 14:52:04 · 8362 阅读 · 1 评论 -
Hive的窗口函数(附带上手案例)
目录窗口函数的概述与总结:可上手案例实操:总结:窗口函数的概述与总结:1.什么时候用开窗函数?开窗函数常结合聚合函数使用,一般来讲聚合后的行数要少于聚合前的行数,但是有时我们既想显示聚集前的数据,又要显示聚集后的数据,这时我们便引入了窗口函数.如下:+-------+-------------+-------+---------------+--+| name | ...原创 2018-12-03 19:18:20 · 644 阅读 · 1 评论 -
Hive文件存储格式(TEXTFILE 、ORC、PARQUET三者的存储格式的压缩对比和查询速度对比)
综述:HIve的文件存储格式有四种:TEXTFILE、SEQUENCEFILE、ORC、PARQUET,前面两种是行式存储,后面两种是列式存储;所谓的存储格式就是在Hive建表的时候指定的将表中的数据按照什么样子的存储方式,如果指定了A方式,那么在向表中插入数据的时候,将会使用该方式向HDFS中添加相应的数据类型。如果为textfile的文件格式,直接load就OK,不需要走MapRed......原创 2018-12-06 11:51:06 · 28649 阅读 · 4 评论 -
Hive的分桶表和抽样查询(附带案例,分桶和分表的区别)
目录总结:分桶表:分桶和分区的区别:抽样查询:总结:总结:①分桶为抽样查询而生,分桶表的创建使用【clustered by (分桶字段)into 桶的个数 buckets】 ,往分桶表中导入数据的时候,需要借助第三张表select table_tmp 目的是借助MapReduce来实现导入不同的桶中,分桶的规则是分桶字段的hash值,模Reducer的个数;②分桶切割...原创 2018-12-02 23:10:05 · 841 阅读 · 0 评论 -
Hive的排序(Order by,Sort by,Distribute by,Cluster by)
目录总结:Order by:Sort by:Distribute by:Cluster by:总结:总结:①order by 全排序,最终会使用一个Reducer生成一个有序的文件,如果输入的数据太大的话,一个Reducer根本应付不过来;②sort by ,会启用多个Reducer进行分区排序(对数据随机分区),并生成多个文件,文件内部是有序的,全局无序;③di...原创 2018-12-02 20:05:31 · 1217 阅读 · 0 评论 -
让分区表和数据产生关联的三种方式
目录总结:方式一:上传数据后添加分区alter add:方式二:上传数据后修复msck:方式三:创建文件夹后load数据到分区:总结:总结:让分区表和数据产生关联的方式有三种:①先在HDFS上创建分区的目录,并上传数据到该目录,最后在使用alter table add partition②先在HDFS上创建分区的目录,并上传数据到该目录,最后使用msck re...原创 2018-12-03 10:29:17 · 937 阅读 · 0 评论 -
Hive中的分区表
目录总结:分区结构图和原理:上手案例实操: 总结:总结:①创建分区表的时候,指定非表字段的分区字段,使用partitioned by ;②向分区表中插入数据的时候,在表名的后面要加上partition(分区字段名=分区字段值)③如果一个表是分区表,那么该分区表在HDFS上是一个以表名为名的路径,那么同时,该路径下还有分区的路径,以分区字段=分区字段值的形式命名。④使用wh...原创 2018-12-03 09:33:07 · 515 阅读 · 0 评论 -
Hive中外部表和管理表(创建表的三种方式)
目录总结: Hive中创建一张表:创建一张表的同时,借助as 来导入数据:创建一张表的同时,借助like 来获取表结构而不是数据:外部表:外部表的使用 场景:结合location来使用:外部表和内部表的转化:总结: 总结: 1,删除管理表的时候,会将管理表的HDFS上的数据和Metastore中的元数据(表结构等)都删除掉:而删除外部表的时候,仅会删除Me...原创 2018-12-03 08:50:19 · 2676 阅读 · 0 评论 -
10分钟搭建Hadoop集群手册(15分钟搭集群,不能再多了~)
目录准备一台安静的虚拟机搭键集群以下步骤,亲测至少3次,能不能10分钟搞定一个集群,就看你的手速啦~一台只是安装好了CentOS的虚拟机:我们在虚拟机内部打开获取ip地址:然后使用ssh登录,这样操作起来更加方便:使用ssh扥登录之后,立马进行如下的操作。准备一台安静的虚拟机#1,关闭防火墙[root@hadoop100 ~]# chkconfig iptables...原创 2018-11-16 19:23:47 · 915 阅读 · 0 评论 -
Hadoop的序列化和反序列化,和实例演示
目录什么是序列化和反序列化?hadoop 中常用数据的序列化类型 自定义bean对象实现序列化接口(Writable) 序列化案例实操 自定义类:FlowBeanMapper类MapperDriver什么是序列化和反序列化?序列化:将内存中的对象装换成字节序列,以便于持久化到硬盘和网络传输反序列化:将接收到的字节序列或者是磁盘中的持久化数据转换...原创 2018-11-20 22:42:10 · 2009 阅读 · 0 评论 -
WordCount的MapReduce过程
目录环境的搭建:Map过程:Reducer过程:Driver过程:Debug过程理解MapReduce过程:跑在集群上下面,我们根据官方的wordcount案例,自己手写一个wordcount的程序,思路是这样的,一个wordcountMapper类继承Mapper类,一个继承Reducer的类,加上一个驱动类。在这之前,我们在分析一下这两个父类。Mapper类...原创 2018-11-20 20:25:39 · 687 阅读 · 0 评论 -
自定义OutputFormat(附带可上手实例)
目录OutputFormat的使用场景: 需求:需求分析:代码实现:输入结果:OutputFormat的使用场景: 需求:过滤输入的log日志,包含isea的网站输出到e:/isea.log,不包含atguigu的网站输出到e:/other.log,输入的数据:http://www.baidu.comhttp://www.google.comhttp:...原创 2018-11-23 14:24:18 · 683 阅读 · 0 评论 -
GroupingComparator分组排序
目录分组排序步骤:需求:需求分析:代码实现:对Reduce阶段的数据根据某一个或几个字段进行分组。分组排序步骤:(1)自定义类继承WritableComparator(2)重写compare()方法@Overridepublic int compare(WritableComparable a, WritableComparable b) { ...原创 2018-11-23 08:39:24 · 779 阅读 · 0 评论 -
MapReduce的Combiner合并
目录Conbiner出现的本质:需求:需求分析:方案一实现:方案二实现:Conbiner出现的本质:在map之后,如果Map阶段不进行合并的话,到达reduce端的数据将是下面这种类型的:<a,1><a,1><a,1>,reducer要处理的工作量大,还要消耗大量的IO,reduce的数量是相对于map是更少的,所以可以把合并的工作交...原创 2018-11-22 15:58:13 · 975 阅读 · 1 评论 -
自定义WritableComparable全排序
目录案例代码实现:案例数据源:13470253144 180 180 36013509468723 7335 110349 11768413560439638 918 4938 585613568436656 3597 25635 2923213590439668 1116 954 207013630577991 6960 690 76501368284655...原创 2018-11-22 14:48:54 · 725 阅读 · 0 评论 -
自定义分区Partitionor
目录需求:需求分析:代码实现:测试1,测试2,测试3,分区总结:需求:将统计结果按照手机归属地不同省份输出到不同文件中(分区)数据源:1 13736230513 192.196.100.1 www.isea.com 2481 24681 2002 13846544121 192.196.100.2 264 0 2003 13956435636...原创 2018-11-22 11:29:35 · 593 阅读 · 0 评论 -
InputFormat数据输入和OutPutFormat数据输出
InputFormat的作用:切片把切片打散成< K ,V >主要分为下面这几种不同的数据输入的方式:FileInputFormat 按照文件的块大小进行切片 该类没有实现 TextInputFormat 按照文件的块大小进行切片 LineLineRecordReader,key是偏移量,value是一行的内容 KeyValueI...原创 2018-11-22 10:03:25 · 832 阅读 · 0 评论 -
大数据与Hadoop
什么是大数据?萝卜和青菜各自有各自的看法,下面说说我所了解到的大数据,那,就从大数据特征说起:大数据,不仅仅具备大的特征,只有外行人才会天真的以为大数据,就是数据,量大!量大只是大数据其中的一个特征,除了这个特征之外,它还和另外三个特征和起来组成了大数据:Volume 大量的 海量的数据量Variety 多种多样的 数据的类型多种多样,比如数据源很有,对于企业...原创 2018-08-26 08:59:47 · 2274 阅读 · 0 评论