自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 Spark入门之基础知识(三)键值对操作

键值对RDD在实际生产中很常用,通常用来进行聚合计算,并且Spark对键值对RDD也提供了新的操作接口可以做更多操作,本文简单介绍一些键值对RDD的基础操作。如何创建Pair RDD1)键值对格式的数据可以直接读入,返回Pair RDD2)使用map()把一个普通的RDD转化为Pair RDD读取text文件,取每行文本的第一个单词做key,该行文本做valueval lines = c...

2019-12-19 18:15:53 370

转载 大数据框架中的小文件问题

转载自http://xcx1024.com/ArtInfo/997661.htmlHadoop里面的小文件问题小文件指的是那些size比HDFS的block size(默认64M)小的多的文件。如果在HDFS中存储小文件,那么在HDFS中肯定会含有许许多多这样的小文件(不然就不会用hadoop了)。而HDFS的问题在于无法很有效的处理大量小文件。任何一个文件,目录和block,在HDFS中都...

2019-12-19 14:34:10 426

原创 Hive入门之基础知识(四)之文件格式和压缩方法

为什么使用压缩使用压缩可以减小所需的磁盘空间,减小磁盘和网络的IO操作,减小了载入内存的数据量提高了IO吞吐量,提升了网络性能(因为MapReduce大多是文件读写操作,属于IO密集型)。...

2019-12-19 09:24:53 346

原创 Hive入门之基础知识(三)之分区与优化的简单介绍

为什么要对数据进行分区在实际生产中,每天的数据量都是以亿为单位的,如果我们不对数据进行分区,直接对全部数据进行统计,则会大大增加时间开销,浪费大量资源。当我们做了合理分区后,例如按天进行分区,当查找某一天的数据时,Hive不会读取全部文件,只会读取HDFS中该天对应的目录,大大提高了执行效率。分区是不是越多越好多数情况下,对数据可以按天进行分区,如果数据量还是太大,可以考虑再按小时进行分区,...

2019-12-18 23:35:45 454

原创 Hive入门之基础知识(二)之数据操作与查询

向Hive表中装载数据Hive不会验证向表中装载的数据和表的模式是否匹配(需要自己检查确认),但是会检查文件的格式是否和表结构定义的一致(创建表时指定的结构若为SEQUENCEFILE,则装载进去的文件也应该为sequencefile格式)。从本地文件系统向表中装载数据LOAD DATA LOCAL INPATH 'path' INTO TABLE 'table' 从本地文件系统向表中...

2019-12-17 21:41:04 258

原创 Spark入门之基础知识(二)RDD编程

什么是RDD弹性分布式数据集RDD是Spark的核心抽象。RDD其实就是分布式的元素集合,Spark中的操作创建、转化、或对RDD进行求值,Spark会自动将RDD的数据分发到集群上并并行执行。RDD是一个不可变的分布式对象集合,每个RDD都被分为多个分区,这些分区在集群中不同的节点上运行。”弹性“的解读:弹性意味着在任何时候都能进行重算,当某一部分数据丢失时,可以根据血缘关系将丢失的部分计...

2019-12-17 17:03:08 283

原创 Spark入门之基础知识(一)

什么是SparkSpark 是一个用来实现快速而通用的集群计算的平台。Spark的核心Spark 的核心是一个对由很多计算任务组成的、运行在多个工作机器或者一个计算集群上的应用 进行调度、分发、监控的计算引擎。Spark软件栈设计的优点1)软件栈中所有程序库和高级组件都可以从下层的改进中受益。2)运行整个软件栈的代价变小了。3)可以构建出无缝整合处理不同模型的应用。Spark 的...

2019-12-17 17:02:27 134

原创 Hive入门之基础知识(一)之杂七杂八

hive出现的原因:从一个基于传统关系型数据库和结构化查询语言的数据基础架构转移到Hadoop上,使用HQL查询Hadoop中的数据。hive不支持记录级别的更新、插入和删除操作。执行延迟大,不支持事务。hive组成模块:所有的命令和查询都会进入到驱动模块driver中,driver对输入进行解析和编译,以及对需求的计算进行优化,然后启动MR来执行job。hive本身不会生成MR的程序,而...

2019-12-16 17:48:45 156

原创 catalog和schema的区别

直接上图,直观一点:什么是catalog从概念上说,一个catalog包含多个schema,一个schema下可以包含多个数据库对象(表,视图,字段),catalog可以理解为数据库实例的元数据集合。常用数据库对catalog和schema的支持如下:什么是schema一般来说,schema是指数据库表的组织和定义,定义了表、字段以及表和字段间的关系。可以理解为表的命名空间。推荐下...

2019-12-10 15:06:26 1531

原创 基于Geohash实现根据经纬度的快速定位

背景介绍在项目中,SDK会上报包含用户经纬度信息的一系列数据,我们需要根据经纬度信息定位出此条数据上报时用户所在的位置,并和其他信息写入宽表中。什么是Geohash如何用Geohash实现快速定位示例代码...

2019-12-09 11:39:31 1727 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除