大数据
木心文刀
这个作者很懒,什么都没留下…
展开
-
Hive中窗口函数的使用
unbounded 无边界preceding 往前following 往后unbounded preceding 往前所有行,即初始行n preceding 往前n行unbounded following 往后所有行,即末尾行n following 往后n行current row 当前行原创 2022-07-06 14:31:31 · 256 阅读 · 0 评论 -
Hive列出两个日期范围内的所有日期
列出日期范围内的所有日期原创 2022-06-15 14:30:58 · 1357 阅读 · 1 评论 -
python 管理yarn资源中任务状态
通过api接口,操作yarn资源管理中的人物#!/usr/local/python3/bin/python3import requestsimport jsonimport datetimefrom datetime import datetimefrom datetime import timezonefrom datetime import timedelta#ip地址ip="192.168.0.160"#job运行时长,需要kill的任务,单位:秒task_interval=原创 2021-03-13 14:47:15 · 1113 阅读 · 0 评论 -
CDH默认Dynamic Allocation 动态分配
转自:https://blog.csdn.net/zyzzxycj/article/details/81011540spark.dynamicAllocation.enabled是否开启动态资源配置,根据工作负载来衡量是否应该增加或减少executor,默认false以下相关参数:spark.dynamicAllocation.minExecutors动态分配最小executor个数,在启动时就申请好的,默认0spark.dynamicAllocation.maxExecutors转载 2021-01-26 11:16:07 · 188 阅读 · 0 评论 -
Spark之RDD输出到不同的文件名和目录
import org.apache.hadoop.io.NullWritableimport org.apache.hadoop.mapred.lib.MultipleTextOutputFormat/** * ClassName: qqqq * Author: yage.liu * Date: 2017年12月01日 17:02 * Version: V1...原创 2019-12-01 17:06:10 · 1016 阅读 · 2 评论 -
spark 处理当前数据所在的文件名称和目录
package com.lyg.coreimport org.apache.spark.SparkContextimport org.apache.spark.rdd.{HadoopRDD, NewHadoopRDD, RDD}import org.apache.spark.sql.SparkSession/** * ClassName: ReadDataToDirectory...原创 2019-12-01 16:46:19 · 924 阅读 · 0 评论 -
使用Java代码实现实时消费kafka的消息
首先maven构建开发项目,配置pom.xml文件 xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd"> 4.0.0 om.cctsoft kafkaTest 0.0.1-SNAPSHOT ja原创 2017-11-03 09:52:18 · 12346 阅读 · 0 评论 -
Spring Boot 集成MyBatis 访问Hbase-Phoenix
第一步:引入需要的maven org.apache.phoenix phoenix-core 4.13.0-HBase-1.3 io.netty netty-all 4.0.4.Final 第二步:配置spring boot的数据源package com.cctsoft.config;/** * @Author kevie liu原创 2017-11-23 09:42:33 · 14529 阅读 · 2 评论