木心文刀-CSDN博客

原创使用pbkdf2_sha256加密密码

如果你忘记管理员密码，而且加密方式是pbkdf2_sha256，可以重置密码，我是重置了hue的管理员密码

2023-08-11 18:20:48 1117 3

原创 Flink写入kafka的自定义Key值

在kafka消息需要有序计算时，可以自定义分区，让一类数据有序进入一个分区上，又kafka特性决定

2022-09-13 11:11:30 2823

Broker load 是一个异步的导入方式，支持的数据源取决于 Broker 进程支持的数据源。因为 Doris 表里的数据是有序的，所以 Broker load 在导入数据的时是要利用doris 集群资源对数据进行排序，想对于 Spark load 来完成海量历史数据迁移，对 Doris 的集群资源占用要比较大，这种方式是在用户没有 Spark 这种计算资源的情况下使用，如果有 Spark 计算资源建议使用 Spark load。......

2022-08-12 17:36:40 4136 2

原创 Hive中窗口函数的使用

unbounded 无边界preceding 往前following 往后unbounded preceding 往前所有行，即初始行n preceding 往前n行unbounded following 往后所有行，即末尾行n following 往后n行current row 当前行

2022-07-06 14:31:31 325

原创 Hive实现环比和同比

环比和同比

2022-06-15 19:09:23 1639

原创 Hive分组函数lag、lead统计窗口内数据用于环比同比

组内数据偏移，可用于环比同比业务

2022-06-15 15:58:29 903

原创 Hive列出两个日期范围内的所有日期

列出日期范围内的所有日期

2022-06-15 14:30:58 1678 1

原创 python 管理yarn资源中任务状态

通过api接口，操作yarn资源管理中的人物#!/usr/local/python3/bin/python3import requestsimport jsonimport datetimefrom datetime import datetimefrom datetime import timezonefrom datetime import timedelta#ip地址ip="192.168.0.160"#job运行时长，需要kill的任务，单位:秒task_interval=

2021-03-13 14:47:15 1279

转载 CDH默认Dynamic Allocation 动态分配

转自：https://blog.csdn.net/zyzzxycj/article/details/81011540spark.dynamicAllocation.enabled是否开启动态资源配置，根据工作负载来衡量是否应该增加或减少executor，默认false以下相关参数：spark.dynamicAllocation.minExecutors动态分配最小executor个数，在启动时就申请好的，默认0spark.dynamicAllocation.maxExecutors

2021-01-26 11:16:07 233

原创 Spark之RDD输出到不同的文件名和目录

import org.apache.hadoop.io.NullWritableimport org.apache.hadoop.mapred.lib.MultipleTextOutputFormat/** * ClassName: qqqq * Author: yage.liu * Date: 2017年12月01日 17:02 * Version: V1...

2019-12-01 17:06:10 1082 2

原创 spark 处理当前数据所在的文件名称和目录

package com.lyg.coreimport org.apache.spark.SparkContextimport org.apache.spark.rdd.{HadoopRDD, NewHadoopRDD, RDD}import org.apache.spark.sql.SparkSession/** * ClassName: ReadDataToDirectory...

2019-12-01 16:46:19 980

原创 spark+phoenix 通过jdbc读取表中的数据

废话不说，直接代码，解决燃煤之急读取phoenix表中数据package com.cctsoft.spark.offline;import org.apache.spark.sql.AnalysisException;import org.apache.spark.sql.Dataset;import org.apache.spark.sql.Row;import org.apache.spark...

2018-06-08 11:15:36 6467 2

原创 Spring Boot 集成MyBatis 访问Hbase-Phoenix

第一步：引入需要的maven org.apache.phoenix phoenix-core 4.13.0-HBase-1.3 io.netty netty-all 4.0.4.Final 第二步：配置spring boot的数据源package com.cctsoft.config;/** * @Author kevie liu

2017-11-23 09:42:33 14608 1

原创使用Java代码实现实时消费kafka的消息

首先maven构建开发项目，配置pom.xml文件 xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd"> 4.0.0 om.cctsoft kafkaTest 0.0.1-SNAPSHOT ja

2017-11-03 09:52:18 12474

原创 hadoop环境变量配置

第一步：配置hadoop home 第二步：配置path第三步：测试 cmd>hadoop version 报错！原因是jdk的路径有空格修改成：C:\PROGRA~1\Java\jdk1.8.0_152如下图：

2017-10-26 10:24:46 1201

爬虫原理和java源码

这是个爬虫的原理介绍文档，内附有java源码

2012-09-26

spring mvc框架文档

非常流行的mvc框架，简单易用，希望是大家要找的中文文档

2013-08-27

Kettle+3.2使用说明书.pdf

不为别的，就为开源的免费使用，Kettle 中文名称叫水壶，该项目的主程序员 MATT 希望把各种数据放到一个壶里然后以一种指定的格式流出。Kettle主要包括四部分，分别为Chef，Spoon，Kitchen，Pan。 Kettle 提供一个图形用户界面 Spoon，用来设计数据转换过程。在 Spoon 中，用户可以使用左面的组件树，在右面的面板中设计转换流程，并在 Log View 面板中查看运行结果。该文章介绍了图形用户界面 Spoon 中各组件的使用

2015-06-01

SQL_Server_2008_R2_Enterprise_Datasheet.pdf

选择MICROSOFT® SQL SERVER® 2008 R2 企业版的十大理由

2012-06-18

大数据生态介绍+ppt+xmind

大数据介绍资料整理

2022-08-01

spark+flink+Iot 开发源码

2021-12-08

hadoop-common-2.8.*-bin(hadoop本地执行配置)

hadoop2.8.1对应windows平台的几个文件hadoop.dll hdfs.dll winutils.exe，windows 7 64环境编译的。用的时候可以需要将hadoop.dll hdfs.dll复制到windows/system32下

2017-10-26

apache-hadoop-3.1.0-winutils-master本地开发调试.zip

在本地win10环境安装高版本的hadoop3.1.0以上，把apache-hadoop-3.1.0-winutils-master\bin目录下的文件全部拷贝到hadoop下的bin目录即可

2019-11-14

安装在eclipse上面的svn插件

项目版本管理软件，是eclipse的插件，可以选择link安装，便与卸载和安装，方便实用

2015-06-04

spark技术文档

伴随着大数据相关技术和产业的逐步成熟，继Hadoop之后，Spark技术以其无可比拟的优势，发展迅速，将成为替代Hadoop的下一代云计算、大数据核心技术。作为国内Spark亚太研究院云计算分布式大数据Spark实战高手之路三部曲之第一部,本书的网络发布版为图文并茂方式，边学习，边演练,不需要任何前置知识，从零开始，循序渐进。

2015-06-01