大数据学习
licjd
技术可以让人走的更远,思想可以让人走的更高
展开
-
Impala JDBC 的使用
以下内容翻译自:https://www.simba.com/products/Impala/doc/v2/JDBC_InstallGuide/content/jdbc/intro.htm文章目录1、建立连接 URL1.1 简单使用1.2 增加配置1.3 案例1.4 注意2、配置身份验证2.1 不使用身份验证2.2 使用 Kerberos2.3 使用用户名2.4 使用用户名和密码(LDAP)3、配置属性说明3.1 AuthMech3.2 PWD & UID3.3 UseSasl1、建立连接 .翻译 2020-07-26 11:13:21 · 1740 阅读 · 1 评论 -
Hive 调整 Map 的个数
摘录自《Hive 性能调优实战》在调优时不希望生成太多的 Map,而把计算任务的等待时间都耗费在 Map 的启动上;或者不希望生成太多的 Map 对某个文件进行操作,以免引起资源的争用。这时候就需要对 Map 进行控制。在 Hive 中配置“set mapred.map.tasks=task 数量”无法控制 Map 的任务数,调节 Map 任务数需要一套算法,该算法也和 InputFormat 有密切的关系,具体如下:在默认情况下 Map 的个数 defaultNum = 目标文件或数据的总大小 .原创 2020-06-13 17:53:13 · 2451 阅读 · 0 评论 -
HBase 优化拆分和合并
摘录自《HBase 权威指南》HBase 内置的处理拆分和合并的机制一般是合理的,并且它们按照预期处理任务,但在某些情况下,还是需要按照应用需求对这部分功能进行优化以获得额外的性能改善。管理拆分通常 HBase 是自动处理 region 拆分的:一旦它们达到了既定的阈值,region 将被拆分成两个,之后它们可以接受新的数据并继续增长。这个默认行为能满足大多数用例的需求。但是其中一种可能出现问题的情况被称为“拆分/合并风暴”:当用户的 region 大小以恒定的速度保持增长时,region 拆分会.原创 2020-06-09 22:23:14 · 1204 阅读 · 0 评论 -
认识布隆过滤器(Bloom Filter)
摘录自《程序员代码面试指南》如果遇到网页黑名单系统、垃圾邮件过滤系统、爬虫的网址判重等题目,又看到系统容忍一定程度的失误率,但是对空间要求比较严格,那么很有可能是需要关于布隆过滤器的知识。一个布隆过滤器精确地代表一个集合,并可以精确判断一个元素是否在集合中。注意,只是精确代表和精确判断,到底有多精确呢?则完全在于你具体的设计,但想做到完全正确是不可能的。布隆过滤器的优势就在于使用很少的空间就可以将准确率做到很高的程度,该结构由 Burton Howard Bloom 于 1970 年提出。首先介绍哈.原创 2020-06-06 10:41:18 · 249 阅读 · 0 评论 -
Hive 分区和桶
摘录自《Hadoop 权威指南》Hive 把表组织成分区(partition)。这是一个根据分区列(partition column,如日期)的值对表进行粗略划分的机制。使用分区可以加快数据分片(slice)的查询速度。表或分区可以进一步分为桶(bucket)。它会为数据提供额外的结构以获得更高效的查询处理。例如,通过根据用户 ID 来划分桶,可以在所有用户集合的随机样本上快速计算基于用户的查询。1. 分区以分区的常用情况为例。考虑日志文件,其中每条记录包含一个时间戳。如果根据日期来对它进行分区.原创 2020-05-30 14:15:29 · 290 阅读 · 0 评论 -
Hive 存储格式
摘录自《Hadoop 权威指南》Hive 从两个维度对表的存储进行管理,分别是行格式(row format)和文件格式(file format)。行格式指行和一行中的字段如何存储。按照 Hive 的术语,行格式的定义由 SerDe 定义。SerDe 是“序列化和反序列化工具”(Serializer-Deserialize)的合成词。当作为反序列化工具进行使用时,也就是查询表时,SerDe 将把文件中字节形式的数据行反序列化为 Hive 内部操作数据行时使用的对象形式。使用序列化工具时,也就是执行 I.原创 2020-05-27 22:36:15 · 254 阅读 · 0 评论 -
Hadoop 压缩
摘录自《Hadoop 权威指南》—— 第四版文件压缩有两种好处:减少存储文件所需要的磁盘空间,并加速数据在网络和磁盘上的传输。这两大好处在处理数据时相当重要,值得仔细考虑在 Hadoop 中文件压缩的用法。有很多种不同的压缩格式、工具和算法,它们各有千秋。如下表列出了与 Hadoop 结合使用的常见压缩方法:压缩格式centered 工具算法文件扩展名是否可切分DEFLATE无DEFLATE.deflate否gzipgzipDEFLATE.gz否.原创 2020-05-20 22:02:05 · 173 阅读 · 0 评论 -
Hadoop 数据完整性
摘录自《Hadoop 权威指南》—— 第四版Hadoop 用户希望系统在存储和处理时不会丢失或损坏任何数。尽管磁盘或网络上的每个 I/O 操作不太可能将错误引入自己正在读/写的数据中,但是如果系统中需要处理的数据量大到 Hadoop 的处理极限时,数据被损坏的概率还是很高的。监测数据是否损坏的常见措施是,在数据第一次引入系统时计算校验和(checksum)并在数据通过一个不可靠的通道进行传输时再次计算校验和,这样就能发现数据是否损坏。如果计算得到的校验和和原来的校验和不匹配,就认为数据已损坏。注意.原创 2020-05-12 23:27:16 · 307 阅读 · 0 评论 -
Hive: 内部表与外部表的区别探索
文章目录一、准备工作1、文件内容2、建表3、查看 hdfs二、文件不在HDFS上1、load data2、查看文件3、删除表,查看文件是否还存在4、结论三、文件在HDFS上0、复制数据1、load data1.1 内部表1.2 外部表2、删除表,查看文件是否还存在3、结论四、最终结论一、准备工作1、文件内容文件不在HDFS上:/home/zhangsan/test.txt文件在HDFS上...原创 2020-04-29 22:52:24 · 193 阅读 · 0 评论 -
Hive - 分区表的探索
以下内容参考自《Hive编程指南》1、简单理解简单理解,分区就是不同的目录结构,表是最外层的目录,表里面的分区对应表目录里的各个子目录,例如:....../employees/country=CA/state=AB.../employees/country=CA/state=BC....../employees/country=US/state=AL.../employees/...原创 2019-11-03 16:06:32 · 184 阅读 · 0 评论 -
在Hive中使用过的函数记录(百分比、截取字符串、分组TOP N、日期转换、日期是第几周)
1、显示百分比形式-- 保留小数点后四位 * 100,连接%concat(round(x/y, 4) * 100, '%')例: 2、取出日期年月-- 截取字符串substr(ord_dt, 1, 6)例: 3、分组后,从每个组内取出各自的TOP Nrow_number() OVER (partition by COL1 order ...原创 2019-04-10 11:44:01 · 19883 阅读 · 0 评论 -
Hive 用户自定义函数 描述信息的生成
参考自《Hive编程指南》 —— 人民邮电出版社@Description(name = "udf_endecode", value = "DES encryption and decryption, use the keyword EXTENDED for specific use", extended = "Example: \n" + "> sele...原创 2019-03-26 15:36:57 · 438 阅读 · 0 评论 -
常见Filter的使用
以下内容参考自《HBase权威指南》 —— 代志远 刘佳 蒋杰 译CompareFilter中的比较运算符 比较器(基于CompareFilter的过滤器提供的)BinaryComparator,使用Bytes.compareTo()比较当前值与阈值BinaryPrefixComparator,使用Bytes.compareTo()进行匹配,但是是从左端开始前缀匹配...原创 2019-02-26 11:10:59 · 513 阅读 · 0 评论 -
理解分布式数据处理的三个级别
分布式数据处理,就是利用分布式计算技术对数据进行处理。分布式计算是指将一个庞大的计算任务经过服务器的处理划分为若干个小任务,然后将这些小任务通过网络分发到位于同一网络、不同物理位置的客户端,通过这种结构计算出各个结果,最后在通过汇总得到这个庞大计算任务的结果。分布式数据处理拥有三个级别的可靠性:数据最多发送一次、最少发送一次、恰好发送一次1、最多一次一般分布式数据处理默认为此级别,...原创 2018-11-27 20:10:07 · 1235 阅读 · 0 评论 -
Hive基本原理
1、Hive与HDFSHive中的数据库就是底层HDFS中的一个文件夹;Hive中的表就是库名文件夹下的子文件夹;Hive中的数据就是表文件夹下的文件;Hive中的hql会转换为底层的MR来执行;Hive默认库对应HDFS中的/usr/hive/warehouse;2、Hive的元数据(默认是Derby,可以修改MySQL作为存储)用来保存描述库、表、列的数据。默认存储...原创 2018-12-12 14:14:07 · 424 阅读 · 0 评论 -
HBase基本原理
1、HBase的架构采用Master/Slave架构搭建集群,由以下节点组成HMaster节点1)管理HRegionServer,实现其负载均衡;2)管理和分配HRegion;3)实现DDL(增删改)操作。HRegionServer节点1)存放和管理本地HRegion;2)与HDFS进行读写交互;3)与客户端进行读写交互。ZooKeeper集群1)存放整...原创 2018-12-12 22:00:19 · 399 阅读 · 0 评论 -
Strom基本概念
1、简要介绍Storm。Strom是分布式的实时计算系统,处理速度很快,可以达到毫秒级别,处理数据是一条一条的处理。组成是由一个个topology(拓扑)组成,一个拓扑可以包含多个spout和多个blot。spout只负责接收数据,将数据转换为Tuple(元组)流到blot;blot可以将spout流过来的数据进行处理,处理后的数据转换Tuple可以继续流向下一个blot或打印到控制台...原创 2018-12-14 15:21:59 · 1763 阅读 · 0 评论 -
浅谈Kafka
一、基本概念1、Kafka里面消息的保存策略不同于其它消息队列,消息不是消费完就被销毁,而是通过指定的保存期限,在期限到来之前,消息是一直存在的;在期限到达,消息才会被销毁。2、leader的选择在Kafka中,不是以服务器broker为单位划分leader、follower,而是以副本(replication)为单位划分leader、follower。这样集群中每个服务器brok...原创 2018-12-14 22:20:48 · 240 阅读 · 0 评论 -
有关大数据的一些知识理解
1、简要说明大数据下的5个VVolumn-大量:形容数据的量Velocity-高速:形容数据增长速度Variety-多样:形容数据类型是多样的Value-价值密度:形容数据有价值的部分是很小的Veracity-真实:形容数据都是真实发生的2、大数据的特点TB、PB级别的数据持续的高速增长半结构化、非结构化的数据3、列存储比行存储的优势海量数据查询时,不存...原创 2018-12-16 21:08:49 · 665 阅读 · 0 评论 -
ZooKeeper基本原理
1、简要介绍ZooKeeper一个分布式的协调服务框架,可以用于解决分布式环境中的常见问题,例如集群管理,统一命名服务、配置管理,分布式锁等。曾经看过马士兵老师的相关视频,马老师总结了七个字:有头、唯一、数据树有头,具有唯一的根结点 /唯一,每个节点都有唯一的路径数据树,存储在ZooKeeper的数据整体上形成了一颗二叉树2、ZooKeeper的选举机制前提:集群的特性...原创 2018-12-11 19:11:52 · 311 阅读 · 0 评论 -
Spark基本原理(二)
1、关于Spark的调优部分1)更好的序列化实现:在Spark中,需要序列化的地方包括写入磁盘、Worker之间传输RDD等。默认的Java序列化性能比较低,所以将序列化的方式修改为kryo;2)配置多个临时文件的目录:在并发性高的情况下,对一个文件的操作会影响整体的性能,为此可以创建多个文件夹,用于存放临时文件;3)启用推测执行机制:类似于Hadoop中的Task任务处理,在某个Ta...原创 2018-12-11 21:25:12 · 339 阅读 · 0 评论 -
windows7下安装hadoop2.6.1
以下步骤是成功部署之后,摘录整理的,若读者根据以下步骤不成功,请重新搜索。===========================================================================================安装步骤参考自:https://www.cnblogs.com/wuxun1997/p/6847950.html 1、hadoo...原创 2019-01-17 09:36:35 · 461 阅读 · 0 评论 -
Log4j的使用
一、Log4j简介 Log4j有三个主要的组件:Loggers(记录器),Appenders (输出源)和Layouts(布局)。这里可简单理解为日志类别,日志要输出的地方和日志以何种形式输出。 在配置时,这三个组件需要配合在一起进行配置,从而达到日志记录和信息显示的目的。1、组件:Loggers Loggers组件在此系统中被分为五个级别:DEBUG...转载 2018-11-28 21:36:03 · 314 阅读 · 0 评论