自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 Hive COALESCE返回第一个不为NULL的值

coalesce(参数1,参数2…)coalesce()函数可以传不定数量的参数,返回这些参数中第一个不为null的值。示例SELECT COALESCE(tmp_login.user_id,tmp_cart.user_id,tmp_order.user_id) user_idFROM tmp_loginFULL OUTER JOIN tmp_cartON tmp_login.user_id = tmp_cart.user_idFULL OUTER JOI

2021-04-22 09:50:44 3025

原创 Hive日期处理函数的使用

date_format作用格式化日期。SELECT DATE_FORMAT('2021-04-21 16:42:00','yyyy-MM-dd');date_add作用对日期进行加(减)操作。SELECT DATE_FORMAT('2021-04-21 16:42:00','yyyy-MM-dd') dt1, DATE_ADD('2021-04-21',1) dt2, DATE_ADD('2021-04-21', -1) dt3;...

2021-04-21 16:51:20 375

原创 Hive nvl函数的使用

格式nvl(表达式1,表达式2)作用如果表达式1的值为空,返回表达式2的值;如果表达式1的值不为空,返回表达式1的值。其表达式的值可以是数字型、字符型和日期型。但是表达式1和表达式2的数据类型必须为同一个类型。示例CREATE TABLE stud2(id int,name string,gender string);INSERT INTO stud2 VALUES(1001,'zs','男'),(1002,'ls','女'),(1003,'ww',NULL);SELECT

2021-04-21 16:40:26 2134

原创 Hive collect_set函数的使用

作用将同一组中不同行的数据聚合为一个集合(无重复数据),如果想要保留重复数据,可以使用collect_list。示例-- 建表create table stud (name string, area string, course string, score int);-- 插入数据insert into table stud values('zhang3','bj','math',88),('li4','bj','math',99),('wang5','sh','chinese',92),('z

2021-04-21 16:24:15 2108

原创 Map和Reduce过程中的数据压缩方式的选择

可以选择数据压缩的位置map之前、map之后reduce之前、reduce之后。压缩方式map之前的数据,我们要考虑切片,可以考虑bzip2和lzo压缩,虽然lzo压缩需要额外创建索引文件,但是lzo压缩的效率和压缩比十分优秀,我们一般都会选择lzo压缩方式。map之后reduce之前的数据,我们要考虑数据的传输效率,可以使用snappy和lzo压缩。reduce之后的数据,我们需要根据需求来选择。比如保存到HDFS,我们考虑lzo。...

2021-04-07 11:41:26 259

原创 Flume自定义拦截器

需求定义两个拦截器,一个用于过滤不合法数据,一个用于区分日志类型。ETL拦截器主要用于,过滤时间戳不合法和Json数据不完整的日志。日志类型区分拦截器主要用于,将启动日志和事件日志区分开来,方便发往Kafka的不同Topic。导入依赖 <dependencies> <dependency> <groupId>org.apache.flume</groupId> <artifac

2021-04-07 09:27:05 1525

原创 Kafka压力测试与机器数量计算

说明         用Kafka官方自带的脚本,对Kafka进行压测。Kafka压测时,可以查看到哪个地方出现了瓶颈(CPU,内存,网络IO)。一般都是网络IO达到瓶颈。kafka-consumer-perf-test.shkafka-producer-perf-test.shKafka Producer压力测试$KAFKA_HOME/bin/kafka-producer-perf-test.sh -

2021-04-06 16:14:41 242

原创 Hadoop运行job默认配置参数以及合理配置参数计算

默认配置参数一个NodeManager的默认运行内存:8G一个job的默认运行内存:8G一个maptask的默认运行内存:1G一个reducetask的默认运行内存:1G如何计算合理的配置参数        如果输入端有100G的数据,那么maptask的运行内存设置为多少?一个job的运行内存设置为多少?        一个个切片

2021-04-05 09:42:34 623

原创 Hadoop集群读写性能测试以及MR测试

测试HDFS写性能        在集群节点上执行如下命令:[hadoop@hadoop01 mapreduce]$ hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-3.1.3-tests.jar TestDFSIO -write -nrFiles 10 -fileSize 128MB参数说明:jar包名称

2021-04-03 22:25:02 1027

原创 Spark任务提交流程

        提交一个Spark应用程序,首先通过Client向ResourceManager请求启动一个Application,同时检查是否有足够的资源满足Application的需求,如果资源条件满足,则准备ApplicationMaster的启动上下文,交给ResourceManager,并循环监控Application状态。       &nbs.

2021-04-03 14:41:56 222 1

原创 Spark yarn模式运行机制

yarn-client模式        在YARN Client模式下,Driver在任务提交的本地机器上运行,Driver启动后会和ResourceManager通讯申请启动ApplicationMaster,随后ResourceManager分配container,在合适的NodeManager上启动ApplicationMaster,此时的ApplicationMaster的功能相当于一个ExecutorLauche

2021-04-03 13:26:58 206

原创 Spark中Driver和Executor的作用

Driver        Spark的驱动器节点,负责运行Spark程序中的main方法,执行实际的代码。Driver在Spark作业时主要负责:将用户程序转化为作业(job)。负责Executor之间的任务(task)调度。监控Executor的执行状态。通过UI展示运行情况。Executor        Executor是S

2021-04-03 13:13:15 4607

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除