冰上浮云-CSDN博客

原创 open-metadata-1.4.3表结构

open metadata 表结构

2024-07-14 12:11:33 545

原创国内采用docker部署open-metadata

open-metadata 国内docker 容器部署。

2024-07-07 15:43:56 807

最近在学习flink 流程序，在写demo程序的时候依赖flink依赖，依赖的包在flink集群里面是自己已经提供了的，在导入的时候配置为provided，像下面这样，以使打包的时候不用打到最终的程序包里面。</</</</</</</</</</在idea里面编译调试的时候，由于maven依赖被标记为provided，依赖没有自动导入，需要在idea中做一下配置，在执行的时候idea才会自动帮忙导入。否则会报如下错误。

2024-03-04 22:38:36 698

原创 java多线程内存回收探索

最近项目上遇到个问题，采用多线程处理的时候发现子线程内部处理不够快，主线程生产子线程需要处理的批次数据，主线程生产数据快，导致主线程产生的数据得不到子线程及时处理，内存快速被撑爆，触发fullgc，又导致大量cpu被用于处理gc，子线程处理起来更慢了，原来1秒处理一批次，到后来10分钟处理一批次。开多线程处理的时候，等待当前批次的几个线程处理完成，当前批次的几个子线程处理完成后再继续生产下一批次需要处理的线程，避免子线程处理不及时的时候，在内存堆积大量需要处理的数据。

2023-11-11 08:52:03 224

原创 hive编译报错整理

【代码】hive编译报错整理。

2023-08-02 23:21:22 1243

原创 IDEA查看jks文件

idea查看jks文件

2022-09-11 22:21:29 1706 1

原创 hive thrift guid 和operationId映射关系

hive thrift guid和hiveserver2 监控页面operationId映射逻辑。

2022-05-04 08:20:34 973

原创 archive.cloudera需要登录访问了

https://archive.cloudera.com/需要密码访问

2022-04-05 09:55:44 2802

原创 hive表查询结果变多行了

hive表某个字段有换行符，一条记录显示成多行了。表存储格式：hudi表parquet存储格式采用spark SQL和presto查询都没有换行。用hive SQL查询采用正则替换掉换行符，查询结果也在一条里面了。CREATE table itclj.itclj_20220121 asSELECT * FROM itclj.dsp_ctest6_task where id=260267 ;--正常SELECT regexp_replace(content, '\n|\t|\r', '')

2022-01-22 10:11:28 1733

原创 springboot requestbody date

@DateTimeFormat(pattern = “yyyy-MM-dd HH:mm:ss”)//必须要是java.util.Date，才行，java.sql.Date不能反序列化org.springframework.format.annotation.DateTimeFormat;

2021-12-22 22:23:56 695

原创 ES查询

1、查询所有GET /test/_search2、匹配查询（match）查询条件会进行分词POST /test/_search{ "query":{ "match":{ "desc":"今天" } }}3、词条查询(term)查询条件不会进行分词POST /test/_search{ "query":{ "term":{ "name":"itclj" } }}...

2021-04-04 21:21:53 195

原创 ES创建索引

创建索引指定分片数和副本数很重要{ "settings":{ "number_of_shards":32, "number_of_replicas":2 }}1、创建索引PUT /test{ "mappings":{ "properties":{ "name":{ "type":"text", "analyzer":"standard"

2021-04-04 21:14:40 779

原创 Java代码拉取HDFS的fsimages

HDFS的fsimages是hdfs准实时状态镜像文件，里面包含hdfs文件大小等元数据信息，直接拉取该文件分析，比通过hdfs命令或者接口拉取分析hive表文件大小等信息消耗的资源要小很多。下面是通过java客户端的DFSAdmin拉取HDFS的fsimages文件代码。public File fetchImage(File dir) throws IOException { new DFSAdmin(conf).fetchImage(new String[]{"-fetchImage", d

2021-02-09 21:58:34 515 1

原创 ElasticSearch7安装IK中文分词器

之前我们创建索引，查询数据，都是使用的默认的分词器，分词效果不太理想，会把text的字段分成一个一个汉字，然后搜索的时候也会把搜索的句子进行分词，所以这里就需要更加智能的分词器IK分词器了。ik分词器的下载和安装，测试下载下载地址：https://github.com/medcl/elasticsearch-analysis-ik/releases，这里你需要根据你的Es的版本来下载对应版本的IK，这里我使用的是7.10.0的ES，所以就下载elasticsearch-analysis-ik-7.10

2021-01-03 21:36:40 3752

原创 Java操作ElasticSearch7.10.0

用以致学，最近搞数据地图项目，元数据存储到ElasticSearch（ES）中快速检索，需要用java操作ES，研究研究写个DEMO，备忘，有需要的同学也可以看看。代码都放这了：https://github.com/clj198606061111/spring-boot2-elasticsearch-demo分三种方式操作ESspring-data-elasticsearchpublic interface BookRepository extends ElasticsearchRepository

2020-12-09 23:11:54 4365 3

原创 elasticsearch7常用命令

1.查看集群的健康状态。http://192.168.10.133:9200/_cat/health?vhttp://192.168.10.133:9200/_cluster/health?pretty=true2.查看集群的索引数。http://192.168.10.133:9200/_cat/indices?v3.查看集群所在磁盘的分配状况http://192.168.10.133:9200/_cat/allocation?v4.查看集群的节点http://192.168.10.133:

2020-11-28 16:12:17 520

原创 superset pip安装

字节码安装安装依赖yum install gcc gcc-c++ libffi-devel python-devel python-pip python-wheel openssl-devel libsasl2-devel openldap-devel安装虚拟环境pip install virtualenvpip install virtualenv -i https://pypi.tuna.tsinghua.edu.cn/simple创建虚拟环境新版本superset只支持Python3

2020-09-15 23:32:02 1061

原创 Excel分组行转列

表格一表格二Excel表格一分组行转列变为表格二所示的格式怎么弄？方案一：转置粘贴，每组数据单独处理，一组一组的选择，然后右键“粘贴选项”->“转置”，这样这一组数据就列传行了。重复所有分组，最终实现表格一到表格二的转换。数据量小的时候可以这样操作，数据量大一点还是很费时间的，当然不太实用。方案二分2步自动全部转换，一劳永逸。第一步：DB和M连接并转为行模式用数据透视表，把每组转到一行上第二步：用vlookup根据DB和M去找space，构建表格二组合DB和M用

2020-08-02 17:53:57 6926

原创 Missing required property “azkaban.native.lib”

Missing required property ‘azkaban.native.lib’17-06-2020 16:06:43 PDT jobB INFO - Starting job jobB at 159243520385317-06-2020 16:06:43 PDT jobB INFO - azkaban.webserver.url property was not set17-06-2020 16:06:43 PDT jobB INFO - job JVM args: '-Dazkaba

2020-06-17 23:30:47 2114

原创 win10编译hadoop3.2.1

概述搞大数据，hadoop是核心组件，因为开源，并且体现庞杂，难免遇到一些坑，在遇到问题的时候很多情况下就需要来翻源码，如果有bug还得改改bug然后重新编译。所以在windows上编译hadoop还是需要弄一下的。hadoop不像一般的那些java小项目，maven编译命令一跑，就把源码给你编译成jar包了。hadoop里面依赖的东西比较多，所以在windows下编码相对来说还是比较麻烦的。hadoop源码根目录有一个BUILDING.txt文件，里面有各个平台的编译指引，windows下的编译指引是

2020-05-28 23:37:50 2987 5

原创 Redis Cluster架构

概述Redis作为常用的K-V内存数据库经常被用在大型互联网项目中，作为缓存使用，由于大型互联网项目一般数据量大并且必须保证服务高可用，使用redis一般都是以集群形式来使用，这样带来2点好处：自动把数据分布到不同节点，容易横向扩容。保证Redis集群中个别节点不可用时Redis服务是可用的。Redis 集群的 TCP 端口(Redis Cluster TCP ports)每个 Re...

2020-05-01 16:52:47 769

原创 vscode调试django项目

这几天研究HUE，这个东西是基于Django开发的，于是又看了一眼Django，学着写个demo。微软开源的vscode在业界反应不错，以前也没用过，借着这次机会用用vscode，和pycharm比起来各有千秋，不过总体来说还是不错的。新工具各种不熟悉，连怎么调试都得研究研究，现在记录一下vscode 怎么弄Django项目的调试。下载Django模块进入vscode 先下载django，点击...

2020-03-09 22:09:29 9670

原创 CodeMirror.MergeView

最近项目上需要实现2个文本的比较展示功能，找了一圈发现CodeMirror.MergeView 自带这个功能，其实里面用的diff插件是Google的diff-match-patch，在github的星星还蛮多，就用选择这个插件了。下面写个demo以便备忘。安装依赖npm install codemirrornpm install diff-match-patch完整代码<te...

2020-02-02 21:14:39 5850 5

原创 hadoop 文件上传

hdsf 本质上就是一个分布式文件系统，只是相对于普通计算机来说，它可以很容易横向扩展，自带高可用机制。我们要在Hadoop做MapReduce计算的时候，就需要把写好的程序打成jar包放到hdfs上。hadoop提供多种方式方式让你能够把文件放入hdfs，比如自带的shell命令行客户端put命令，java客户端的FileSystem，REST的HDFS API（WebHDFS与HttpFS...

2020-02-01 21:54:22 12977

翻译 YARN资源调度策略之Fair Scheduler

目的这篇文章是对公平调度器（FairScheduler）的说明，它是hadoop的一个可插拔的调度器，目的是让应用程序在YARN上能够公平的共享巨大的集群资源。介绍公平调度是一种将资源分配给应用程序的方法，这样所有应用程序平均都能在一段时间内获得相同的资源份额。Hadoop NextGen能够调度多个资源类型。默认情况下，Fair调度器仅基于内存来进行公平性决策。利用Ghodsi等人提出的占...

2020-01-30 14:33:13 1617

原创 hive自定义函数（UDF）

概述用户自定义函数(UDF)是一个允许用户扩展HiveQL的强大的功能。用户可以使用Java编写自己的UDF，一旦将用户自定义函数加入到用户会话中(交互式的或者通过脚本执行的)，它们就将和内置的函数一样使用，甚至可以提供联机帮助。Hive具有多种类型的用户自定义函数，每一种都会针对输入数据执行特定“一类”的转换过程。在ETL处理中，一个处理过程可能包含多个处理步骤。Hive语言具有多种方式来将...

2020-01-29 21:41:32 8921 2

转载 Fair Scheduler与Capacity Scheduler比较

1、Fair SchedulerFacebook开发的适合共享环境的调度器，支持多用户多分组管理，每个分组可以配置资源量，也可限制每个用户和每个分组中的并发运行作业数量；每个用户的作业有优先级，优先级越高分配的资源越多。2、Capacity SchedulerYahoo开发的适合共享环境的调度器，支持多用户多队列管理，每个队列可以配置资源量，也可限制每个用户和每个队列的并发运行作业数量，也可...

2020-01-28 15:01:08 1266

转载 YARN资源调度策略之Capacity Scheduler

什么是capacity schedulerCapacity Scheduler调度器以队列为单位划分资源。简单通俗点来说，就是一个个队列有独立的资源，队列的结构和资源是可以进行配置的，如下图：default队列占30%资源，analyst和dev分别占40%和30%资源；类似的，analyst和dev各有两个子队列，子队列在父队列的基础上再分配资源。队列以分层方式组织资源,设计了多层级别的...

2020-01-28 13:28:58 4298 2

转载 Yarn资源调度系统详解

1、Yarn介绍Apache Hadoop YARN 是 apache Software Foundation Hadoop的子项目，为分离Hadoop2.0资源管理和计算组件而引入。YARN的诞生缘于存储于HDFS的数据需要更多的交互模式，不单单是MapReduce模式。Hadoop2.0 的YARN 架构提供了更多的处理框架，比如spark框架，不再强迫使用MapReduce框架。从ha...

2020-01-27 15:40:27 3490

原创 presto测试安装

安装安装参考官方文档：https://prestodb.github.io/docs/current/installation/deployment.html环境要求JDK：>=8u151如果服务器里面的jdk版本低于目前presto需求，需要在launcher单独配置需要的jdk起动(将以下二行添加至bin/launcher文件)export JAVA_HOME=/usr/ja...

2019-10-13 22:22:08 716

原创在CentOS上重新编译nginx，加sticky模块

为了达到高可用目的，一个应用一般会部署多个实例，前面用nginx做负载。有些时候我们希望一个用户的所有请求都打到其中一个实例上（比如会话或者状态不能在服务集群所有实例间进行共享时），nginx官方默认的解决方案是通过ip_hash实现，但是ip hash 不够准确，ip hash其实就是把客户端ip v4地址4段中的前3段拿来做hash运算得到一个hash值，通过该hash值决定请求打到哪个服务上...

2019-10-04 17:52:01 1190

原创 mysql5.7忘记root密码处理（win10环境）

环境操作系统：win10MySQL版本：mysql-5.7.17-winx64操作步骤1. 停止mysql服务net stop mysql2. 关闭身份认证以管理员身份启动一个DOS窗口，进入mysql的bin目录，执行如下命令。./mysqld --skip-grant-tables;或者./mysqld -nt --skip-grant-tables;3. 重新...

2019-08-22 23:01:18 1009

翻译 Flink数据流编程模型

抽象层次Flink 提供了不同层次的抽象给批/流编程模型使用。[外链图片转存失败(img-dO9iJvNu-1566143383239)(https://github.com/clj198606061111/image/blob/master/flink/levels_of_abstractic.png?raw=true)]最底层的抽象是状态流（stateful streaming），它通...

2019-08-18 23:50:32 192

原创 Flink安装部署-window 本地部署

flink 可以运行在 Linux, Mac OS X, and Windows 操作系统上面。要运行Flink得先安装JDK 8.X。JDK安装参看：http://www.itclj.com/blog/5920236681c06e672f942ad4下载官网下载地址：https://flink.apache.org/zh/downloads.htmlGIThub源码下载地址：https:...

2019-08-17 15:56:06 22607 21

转载 Flink应用场景

Apache Flink 功能强大，支持开发和运行多种不同种类的应用程序。它的主要特性包括：批流一体化、精密的状态管理、事件时间支持以及精确一次的状态一致性保障等。Flink 不仅可以运行在包括 YARN、 Mesos、Kubernetes 在内的多种资源管理框架上，还支持在裸机集群上独立部署。在启用高可用选项的情况下，它不存在单点失效问题。事实证明，Flink 已经可以扩展到数千核心，其状态可以...

2019-08-17 14:11:07 4226

转载 Linux Netcat 命令——网络工具中的瑞士军刀

netcat是网络工具中的瑞士军刀，它能通过TCP和UDP在网络中读写数据。通过与其他工具结合和重定向，你可以在脚本中以多种方式使用它。使用netcat命令所能完成的事情令人惊讶。netcat所做的就是在两台电脑之间建立链接并返回两个数据流，在这之后所能做的事就看你的想像力了。你能建立一个服务器，传输文件，与朋友聊天，传输流媒体或者用它作为其它协议的独立客户端。下面是一些使用netcat的例子...

2019-08-04 22:17:44 286

原创 vue g6 hello world

在下当前所在项目需要弄一个流程图，前端框架用的vue，所以研究一下g6在vue下的使用。g6介绍G6 是蚂蚁金服旗下一个开源图可视化框架。它提供了一套图可视化的基础设置，能帮助开发者搭建属于自己的图图分析应用或是图编辑器应用。个人感觉这个图可视化框架比 GoJS更优秀更好用些。项目地址：https://github.com/antvis/g6准备通过 npm 安装npm in...

2019-06-04 07:56:21 5001 2

原创 [anaconda]jupyter notebook 安装配置

背景现在在公司大数据平台部从事大数据基础组件开发工作，所需要涉及的知识面非常广，其中人工智能也是后续大数据基础平台建设的重要部分，于是就花了几千块报了个人工智能的课程。这个课程有一些前置基础课程，python就是其基础课程的一门。开始学习python，教学环境用的anaconda里面的jupyter notebook，为了使自己的学习和教程有一个相同的环境，也安装了一下anaconda，方便以后...

2019-03-26 17:42:16 6448

转载数据治理之元数据管理实践

引言数字转型对不同的人意味着不同的东西，这取决于你的行业和你的业务性质。然而，所有的解释都有一个共同的主线，数据和数据治理的重要性。近年来，大家都在谈论数据逐步或已经成为企业的核心资产，数据驱动企业业务开展已经在不同的行业和企业中发挥着巨大的作用，那么作为企业的核心资产数据，如何进行管理是不同企业在进行全面数字化转型需要考虑的一个重要事情。关于元数据概念的文章网上有不少，本文主要探讨一般的企业...

2019-03-02 16:04:44 24893 1

转载数据质量监控工具-Apache Griffin

一、概述随着业务发展和数据量的增加，大数据应用开发已成为部门应用开发常用的开发方式，由于部门业务特点的关系，spark和hive应用开发在部门内部较为常见。当处理的数据量达到一定量级和系统的复杂度上升时，数据的唯一性、完整性、一致性等等校验就开始受到关注，而通常做法是根据业务特点，额外开发job如报表或者检查任务，这样会比较费时费力。目前遇到的表大部分在几亿到几十亿的数据量之间，并且报表数量在...

随着计算机技术和通信技术的迅猛发展,学校教学和管理的信息化发展也有长足的进步,这就要求各个环节都均衡发展,从软硬件双方面把学校建设成一流的信息管理、教育教学的平台。该文设计开发的在线考试系统也是其中重要的一个方面。本系统以减轻教师工作负担、提高工作效率、防止试题泄露、优化考试流程为目的,采用J2EE平台三层架构开发模式,采用一种新的工作流模型设计并实现在线考试系统功能,开发出具有跨平台、功能完善、安全稳定的网上在线考试系统,从而使系统具有较高的运行效率、良好的可扩展性和可维护性。本系统分为两大模块:后台管理模块和考试功能模块。其中后台管理模块是对考生信息、试题、试卷和考务进行管理。考试功能模块

2010-10-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

利用Hibernate框架简化Java数据库访问

基于Java的数据库连接池技术在即时通信系统中的应用

用EXCEL VBA实现电子水准数据预处理

Java操作Word模板实现动态数据输出

Linux环境下的嵌入式系统网络编程应用

Java网络编程:连接网络数据库的多种方法

VB_WinSock网络编程

Java网络编程的研究

基于Java的员工日志管理系统的设计与实现

DVB选择Java技术作为其数字电视广播标准的基础

关于java数据库基本操作

利用JAVA实现局域网的跨平台实时视频传输

基于XML的JAVA报表引擎研究与应用

基于JAVA的报表软部件的研究与实现

Java报表打印的若干问题

服务器虚拟化技术在在线考试系统中的应用

基于ASP.NET与SQL Server2005的在线考试系统

基于Moodle的在线考试系统的设计与实施

ASP在线考试系统探讨

基于J2EE在线考试系统的设计与实现

【PyMySQL】python3 mysql数据库操作工具

tomcat-juli-8.0.23

UnlimitedJCEPolicyJDK7.zip

404错误页面

ExtJS4.2 MVC

MongoDB README文件

RSA加密解密（JS加密JAVA解密）

Spring3.2文档小结.docx

jbpm4.4-请假流程

eclipse-tomcat插件v33

jQuery的内容滑块(nivo-slider3.1)

jquery手风琴式的展示动画

jQuery图片放大镜.

jQuery立体全屏相册

jQuery产品图片放大浏览插件

Ireport4.5.0制作柱型图

Ireport4.5.0制作3D饼图

Eclipse关联源代码.doc

人力资源管理解决方案简介

JAVA数据库数据分页技术

空空如也