自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 资源 (16)
  • 收藏
  • 关注

原创 使用pbkdf2_sha256加密密码

如果你忘记管理员密码,而且加密方式是pbkdf2_sha256,可以重置密码,我是重置了hue的管理员密码

2023-08-11 18:20:48 705 3

原创 Hive列数组转换多行

数据仓库常用的统计转换,列转行

2023-01-29 15:35:25 294

原创 Flink写入kafka的自定义Key值

在kafka消息需要有序计算时,可以自定义分区,让一类数据有序进入一个分区上,又kafka特性决定

2022-09-13 11:11:30 2517

翻译 Hive 分区表的数据导入Doris

Broker load 是一个异步的导入方式,支持的数据源取决于 Broker 进程支持的数据源。因为 Doris 表里的数据是有序的,所以 Broker load 在导入数据的时是要利用doris 集群资源对数据进行排序,想对于 Spark load 来完成海量历史数据迁移,对 Doris 的集群资源占用要比较大,这种方式是在用户没有 Spark 这种计算资源的情况下使用,如果有 Spark 计算资源建议使用 Spark load。......

2022-08-12 17:36:40 3473 2

原创 Hive中窗口函数的使用

unbounded 无边界preceding 往前following 往后unbounded preceding 往前所有行,即初始行n preceding 往前n行unbounded following 往后所有行,即末尾行n following 往后n行current row 当前行

2022-07-06 14:31:31 265

原创 Hive实现环比和同比

环比和同比

2022-06-15 19:09:23 1481

原创 Hive分组函数lag、lead统计窗口内数据用于环比同比

组内数据偏移,可用于环比同比业务

2022-06-15 15:58:29 799

原创 Hive列出两个日期范围内的所有日期

列出日期范围内的所有日期

2022-06-15 14:30:58 1418 1

原创 python 管理yarn资源中任务状态

通过api接口,操作yarn资源管理中的人物#!/usr/local/python3/bin/python3import requestsimport jsonimport datetimefrom datetime import datetimefrom datetime import timezonefrom datetime import timedelta#ip地址ip="192.168.0.160"#job运行时长,需要kill的任务,单位:秒task_interval=

2021-03-13 14:47:15 1143

转载 CDH默认Dynamic Allocation 动态分配

转自:https://blog.csdn.net/zyzzxycj/article/details/81011540spark.dynamicAllocation.enabled是否开启动态资源配置,根据工作负载来衡量是否应该增加或减少executor,默认false以下相关参数:spark.dynamicAllocation.minExecutors动态分配最小executor个数,在启动时就申请好的,默认0spark.dynamicAllocation.maxExecutors

2021-01-26 11:16:07 195

原创 Spark之RDD输出到不同的文件名和目录

import org.apache.hadoop.io.NullWritableimport org.apache.hadoop.mapred.lib.MultipleTextOutputFormat/** * ClassName: qqqq * Author: yage.liu * Date: 2017年12月01日 17:02 * Version: V1...

2019-12-01 17:06:10 1030 2

原创 spark 处理当前数据所在的文件名称和目录

package com.lyg.coreimport org.apache.spark.SparkContextimport org.apache.spark.rdd.{HadoopRDD, NewHadoopRDD, RDD}import org.apache.spark.sql.SparkSession/** * ClassName: ReadDataToDirectory...

2019-12-01 16:46:19 933

原创 spark+phoenix 通过jdbc读取表中的数据

废话不说,直接代码,解决燃煤之急读取phoenix表中数据package com.cctsoft.spark.offline;import org.apache.spark.sql.AnalysisException;import org.apache.spark.sql.Dataset;import org.apache.spark.sql.Row;import org.apache.spark...

2018-06-08 11:15:36 6375 2

原创 Spring Boot 集成MyBatis 访问Hbase-Phoenix

第一步:引入需要的maven org.apache.phoenix phoenix-core 4.13.0-HBase-1.3 io.netty netty-all 4.0.4.Final 第二步:配置spring boot的数据源package com.cctsoft.config;/** * @Author kevie liu

2017-11-23 09:42:33 14541 2

原创 使用Java代码实现实时消费kafka的消息

首先maven构建开发项目,配置pom.xml文件  xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">  4.0.0  om.cctsoft  kafkaTest  0.0.1-SNAPSHOT  ja

2017-11-03 09:52:18 12375

原创 hadoop环境变量配置

第一步:配置hadoop home 第二步:配置path第三步:测试 cmd>hadoop version 报错!原因是jdk的路径有空格修改成:C:\PROGRA~1\Java\jdk1.8.0_152如下图:

2017-10-26 10:24:46 1131

大数据生态介绍+ppt+xmind

大数据介绍资料整理

2022-08-01

spark+flink+Iot 开发源码

spark+flink+Iot 开发源码

2021-12-08

apache-hadoop-3.1.0-winutils-master本地开发调试.zip

在本地win10环境安装高版本的hadoop3.1.0以上,把apache-hadoop-3.1.0-winutils-master\bin目录下的文件全部拷贝到hadoop下的bin目录即可

2019-11-14

hadoop-common-2.8.*-bin(hadoop本地执行配置)

hadoop2.8.1对应windows平台的几个文件hadoop.dll hdfs.dll winutils.exe,windows 7 64环境编译的。用的时候可以需要将hadoop.dll hdfs.dll复制到windows/system32下

2017-10-26

bootstrap+springMVC+maven

bootstrap+springMVC+maven

2016-09-01

安装在eclipse上面的svn插件

项目版本管理软件,是eclipse的插件,可以选择link安装,便与卸载和安装,方便实用

2015-06-04

Kettle+3.2使用说明书.pdf

不为别的,就为开源的免费使用,Kettle 中文名称叫水壶,该项目的主程序员 MATT 希望把各种数据放到一个壶里然后以 一种指定的格式流出。Kettle主要包括四部分,分别为Chef,Spoon,Kitchen,Pan。 Kettle 提供一个图形用户界面 Spoon,用来设计数据转换过程。在 Spoon 中,用户可以使用左面的 组件树,在右面的面板中设计转换流程,并在 Log View 面板中查看运行结果。该文章介绍 了图形用户界面 Spoon 中各组件的使用

2015-06-01

spark技术文档

伴随着大数据相关技术和产业的逐步成熟,继Hadoop之后,Spark技术以其无可比拟的优势,发展迅速,将成为替代Hadoop的下一代云计算、大数据核心技术。 作为国内Spark亚太研究院云计算分布式大数据Spark实战高手之路三部曲之第一部,本书的网络发布版为图文并茂方式,边学习,边演练,不需要任何前置知识,从零开始,循序渐进。

2015-06-01

D3设计交互式图表中文文档

D3设计交互式图表中文文档,是使用D3代码库,实现数据可视化,本文档适合所有的开发者,只要有html、css、svg、javascript只是的同学,都可以阅读

2014-08-20

spring mvc框架文档

非常流行的mvc框架,简单易用,希望是大家要找的中文文档

2013-08-27

中文jquery api文档

完整的jquery中文开发文档,这是一个想成为web客户端开发者的首选

2013-08-27

微博的专业爬虫

用于微博的信息抓取技术,带有java源码,简单易懂

2012-09-26

爬虫原理和java源码

这是个爬虫的原理介绍文档,内附有java源码

2012-09-26

SQL_Server_2008_R2_Enterprise_Datasheet.pdf

选择MICROSOFT® SQL SERVER® 2008 R2 企业版的十大理由

2012-06-18

lucene-3.6.0.zip有完整的api和jar包

lucene最流行的引擎搜索技术,有完整的,分词,建立索引,搜索体系。

2012-06-18

极易分词je-analysis-1.4.0.jar

这是基于lucene的开源分词方法,也是用的最多的分词方法

2012-06-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除