大数据技术
青松愉快
动漫什么的最好了
展开
-
Hive实现自增列的两种方法
多维数据仓库中的维度表和事实表一般都需要有一个代理键,作为这些表的主键,代理键一般由单列的自增数字序列构成。Hive没有关系数据库中的自增列,但它也有一些对自增序列的支持,通常有两种方法生成代理键:使用row_number()窗口函数或者使用一个名为UDFRowSequence的用户自定义函数(UDF)。 假设有维度表tbl_dim和过渡表tbl_stg,现在要将tbl_stg的数据装载到tbl_dim,装载的同时生成维度表的代理键。用row_number()函数生成代理键insert into t转载 2020-08-27 17:10:37 · 197 阅读 · 0 评论 -
hive mapreduce reducer 调优
hive参数配置详情可查官方文档:Hive Configuration+Properties本文针对 reducer 调优,主要涉及一下三个参数:hive.exec.reducers.bytes.per.reducerDefault Value: 1,000,000,000 prior to Hive 0.14.0; 256 MB (256,000,000) in Hive 0.14.0 and later Added In: Hive 0.2.0; default changed in 0.转载 2020-08-26 10:07:37 · 532 阅读 · 0 评论 -
hive出现java.lang.OutOfMemoryError: GC overhead limit exceeded
最近用sparksession写入hive数据时,但用hive查询统计行数报错了select count(*) from test_20190417;错误如下:Number of reduce tasks determined at compile time: 1In order to change the average load for a reducer (in bytes): set hive.exec.reducers.bytes.per.reducer=<number>转载 2020-07-31 10:20:12 · 2833 阅读 · 0 评论 -
Spark优化那些事(4)-关于spark.driver.maxResultSize的疑惑
今天遇到了spark.driver.maxResultSize的异常,通过增大该值解决了,但是其运行机制不是很明白,先记录在这里,希望后面有机会可以明白背后的机制。该异常会报如下的异常信息:Job aborted due to stage failure: Total size of serialized results of 3979 tasks (1024.2 MB) is bigger than spark.driver.maxResultSize (1024.0 MB)锁定了是sp...转载 2020-06-18 16:22:02 · 5441 阅读 · 0 评论 -
spark安装配置
1.ssh互信2.配置scala3.配置spark-env.shexport SCALA_HOME=/apps/scala-2.10.6export JAVA_HOME=/apps/jdkexport SPARK_MASTER_IP=10.10.69.195export SPARK_MASTER_PORT=7077export SPARK_WORKER_CORES=1expo...原创 2016-05-20 14:00:35 · 374 阅读 · 0 评论 -
离线安装cdh
关于CDH和Cloudera ManagerCDH (Cloudera's Distribution, including Apache Hadoop),是Hadoop众多分支中的一种,由Cloudera维护,基于稳定版本的Apache Hadoop构建,并集成了很多补丁,可直接用于生产环境。Cloudera Manager则是为了便于在集群中进行Hadoop等大数据处理相关的服务安装和监...转载 2016-07-07 15:01:39 · 829 阅读 · 0 评论 -
hive udaf
HiveUDAF(User- Defined Aggregation Funcation)用户自定义聚合函数是一个很好的功能,集成了先进的数据处理。hive有两种UDAF:简单和通用。顾名思义,简单的UDAF,写的相当简单的,但因为使用Java反射导致性能损失,而且有些特性不能使用,如可变长度参数列表。通用UDAF可以使用所有功能,但是UDAF就写的比较复杂,不直观。1、一下两个包是必须...原创 2017-09-02 15:58:34 · 301 阅读 · 0 评论 -
spark调优
基本概念和原则首先,要搞清楚Spark的几个基本概念和原则,否则系统的性能调优无从谈起:每一台host上面可以并行N个worker,每一个worker下面可以并行M个executor,task们会被分配到executor上面去执行。Stage指的是一组并行运行的task,stage内部是不能出现shuffle的,因为shuffle的就像篱笆一样阻止了并行task的运行,遇到shuff...转载 2017-09-20 18:45:35 · 223 阅读 · 0 评论 -
java.util.BitSet 研究(存数海量数据时的一个途径)
java.util.BitSet可以按位存储。计算机中一个字节(byte)占8位(bit),我们java中数据至少按字节存储的,比如一个int占4个字节。如果遇到大的数据量,这样必然会需要很大存储空间和内存。如何减少数据占用存储空间和内存可以用算法解决。java.util.BitSet就提供了这样的算法。比如有一堆数字,需要存储,source=[3,5,6,9]用int就需要4*4...转载 2016-05-16 14:20:16 · 492 阅读 · 0 评论 -
kafak、flume、elasticsearch
目标:利用Flume Agent实现,将Kafka中数据取出,送入ElasticSearch中。分析:Flume Agent需要的工作,两点:Flume Kafka Source:负责从Kafka中读取数据; Flume ElasticSearch Sink:负责将数据送入ElasticSearch;当前Flume 1.5.2已经包含了ElasticSearchSink,因此,需要定制...转载 2016-03-07 19:15:32 · 1415 阅读 · 0 评论 -
canal安装及使用
1、准备:github:https://github.com/alibaba/canal里面有包括canal的文档,server端 client端的 例子 源码包等等。2、canal概述:canal是应阿里巴巴存在杭州和美国的双机房部署,存在跨机房同步的业务需求而提出的。早期,阿里巴巴B2B公司因为存在杭州和美国双机房部署,存在跨机房同步的业务需求。不过早期的数据库同步业务,主...转载 2016-02-26 17:11:51 · 8769 阅读 · 1 评论 -
Flume+Kafka整合
1.下载flume-kafka-plus:https://github.com/beyondj2ee/flumeng-kafka-plugin在该项目中提取以下jar包放入环境中flume的lib下还有package目录的flumeng-kafka-plugin.jar包一并放到flume的lib目录下flume配置文件:#agentproducer.sources = ...原创 2016-02-23 18:33:54 · 760 阅读 · 0 评论 -
azkaban调度系统架构
可以按照azkaban架构实现自己的调度系统,我自己实现的调度系统类图azkaban调度系统是linkin贡献的开源项目,分为webserv和executorserver,webserver用于界面配置任务,executorserver用于执行任务,由mysql数据库驱动,容易借鉴开发自己的调度系统,具体介绍请参考官方网址介绍http://azkaban.github.io/azka...原创 2016-01-05 19:02:40 · 3177 阅读 · 0 评论 -
使用Spark实现相似度计算
使用Spark实现相似度计算在这篇文章中,我们和大家分享一下使用Spark来实现一些比较复杂的逻辑的过程中所遇到的问题和一些体会。本文的例子基于all pair similarity search一、简介All pair similarity search简单来说就是计算给定的一组向量之间的两两相似度,通常向量是高维的且是稀疏的,向量数量是巨大的。Apss是在大数据的数据挖掘中...转载 2017-10-27 17:30:58 · 14027 阅读 · 4 评论 -
Use spark.{driver,executor}.userClassPathFirst
HiI'm on Spark 1.6.1, and it happens that we override Yarn classpath in yarn-site.xml. So I have a simple job that reads avro files using com.databricks.avro library. When I run my job like that, it...转载 2018-09-22 10:55:36 · 2900 阅读 · 0 评论 -
Hadoop之MapReduce自定义二次排序流程实例详解
一、概述MapReduce框架对处理结果的输出会根据key值进行默认的排序,这个默认排序可以满足一部分需求,但是也是十分有限的。在我们实际的需求当中,往往有要对reduce输出结果进行二次排序的需求。对于二次排序的实现,网络上已经有很多人分享过了,但是对二次排序的实现的原理以及整个MapReduce框架的处理流程的分析还是有非常大的出入,而且部分分析是没有经过验证的。本文将通过一个实际的M转载 2016-02-14 16:40:09 · 825 阅读 · 0 评论 -
HDFS上读写数据的流程解释
文件的读取文件读取的过程如下:1)解释一客户端(client)用FileSystem的open()函数打开文件。DistributedFileSystem用RPC调用元数据节点,得到文件的数据块信息。对于每一个数据块,元数据节点返回保存数据块的数据节点的地址。DistributedFileSystem返回FSDataInputSt转载 2016-04-09 14:04:56 · 412 阅读 · 0 评论 -
Hadoop Yarn 框架原理及运作机制
1.1YARN 基本架构YARN是Hadoop 2.0中的资源管理系统,它的基本设计思想是将MRv1中的JobTracker拆分成了两个独立的服务:一个全局的资源管理器ResourceManager和每个应用程序特有的ApplicationMaster。其中ResourceManager负责整个系统的资源管理和分配,而ApplicationMaster负责单个应用程序的管理。1...转载 2016-07-25 18:55:17 · 507 阅读 · 0 评论