- 博客(224)
- 资源 (6)
- 收藏
- 关注

原创 超详细的Hadoop集群部署
本文建立在已经把虚拟机ip环境等已经下载好情况下。那么,直接开始今天的正题:搭建集群环境准备这里提供两种思路:一种是将一台直接搭建好,后面的克隆或者copy虚拟机一种是3台并进,多次进行虚拟机之间文件互传,各有利弊,第一种方式容易漏改ip等问题,第二种方式简单明了,一遍过手,就是步骤稍微多一点,这里采用第二种方式:1、配置服务器(我这里是以3台为例)1个主节点:hadoop1(...
2019-11-08 00:07:13
16791
2

原创 关于java 实体类与json 实体类集合与jsonArray的相互转换
最近项目中要多次使用到java 实体类与json 实体类集合与jsonArray的相互转换,接下来把遇到的问题和方法分享一下:class Stu { private String s1; private String s2; private String s3; public String getS1() { return s1; }...
2019-10-23 17:03:14
2874

原创 关于Map的几种遍历方式
Map之遍历:关于集合这块需要写的东西其实挺多的,集合有自己的顶级接口Collection,底下又有map和list两个接口,接下来我们谈一谈关于map集合方面的东西。map是java中非常常用的一种数据结构,提供get和put两个常用的方法;map虽然继承了Collection,但却没有实现Collection的Iterator 方法,自身没有迭代器来遍历元素接下来言归正传,对于map的遍历也是...
2018-03-16 10:16:29
391
原创 【Hbase 01】Hbase基本介绍和常用命令以及和hive的区别
HBase本质上是一个非关系型数据库,在实际过程中,用于存储数据。因为HBase的读写效率较高,吞吐量较大,因此一般使用HBase来存储实时的数据,最终数据会落地到HDFS上。HBase作为数据库,提供了完整的增删改查的能力,但是相对而言,HBase的事务能力较弱。HBase不支持SQL,提供了一套完整的命令
2023-03-26 17:56:24
215
原创 SpringAOP中的代理模式和两种代理的区别
提到spring不得不说的几个特点:依赖注入和AOP,本文主要说一下AOP。Spring AOP的实现是通过动态代理,并且有两种实现方式,分别是JDK动态代理和CGLib动态代理。Spring默认使用JDK动态代理,只有在类没有实现接口时,才会使用CGLib。
2023-03-21 23:08:54
58
原创 【Docker 06】docker提交至docker hub以及常见错误处理
Docker官方维护了一个Docker Hub公共仓库 ,日常大部分需求都可以通过在 Docker Hub 中直接下载镜像来实现,但是有时需要根据自己的需要传自己制作的镜像上去,以供使用。本文主要讲解了怎么把自己的镜像推上去,详细步骤和过程中的问题,以供各位在试用的时候直接能用
2023-03-19 23:33:17
63
原创 【Docker 05】关于docker-compose介绍、安装、使用,看这一篇就够了
前面介绍了通过Dockerfile来制作镜像,然后进行打包,进行docker run启动,接下来说一个docker总比较重要的另一个东西--docker compose。docker compose 在 Docker 容器运用中具有很大的学习意义,是一个整合发布应用的利器。而使用 docker compose 时,懂得如何编排配置文件是很重要的。本文将会从docker-compose的介绍,安装,使用、案例等方面来介绍这一工具
2023-03-11 23:05:11
134
原创 JAVA识别PDF和OFD电子发票并解析为java对象
上一篇我们说了java实现电子发票中的发票税号等信息识别的几种可用方案,最后博主选取了识别文件二维码的方式,而且文章最后也说了,这种有局限性,去到的信息有限,而且针对OFD格式也得继续想办法,那接下来,我们就说一下怎么处理这个问题,并且如何去识别OFD格式的发票文件中的内容
2023-03-01 23:07:49
328
原创 【Docker 04】Dockerfile指令以及操作超全讲解
dockerfile 是构建镜像文件,他是由一系列的命令和脚本参数组成的,可以看成是镜像创建的源码dockerfile就是用来构建docker镜像的构建文件,命令参数脚本。
2023-02-24 23:10:50
164
原创 Springboot获取文件内容,将MultipartFile转File方法
文件上传以前是噩梦一样的存在,觉得很少麻烦,后来仔细研究后发现通过前端传文件去调取后端接口并不是特别复杂,接下来我详细说一下通过接口的方式接收前端传过来的文件,并且解析文件中内容的方法。主要写一下怎么转换并获取内容。再说说怎么把txt文件内容和excel读取出来处理。
2023-02-15 00:15:00
5143
原创 【Docker 03】docker的数据共享法宝-数据卷技术
docker和宿主机进行数据的共享,使用的技术叫做数据卷技术。场景:如果容器使用msyql 创建了数据库。默认数据库数据存户在容器中的。但是容器随时可能被移动或者删除,数据就随之消失,这是非常不合理的。或者其他应用场景,我们希望通过配置宿主机的文件,实现容器内部的公用,比如nginx的静态文件,配置文件nginx.conf,如果使用容器内部的数据文件,总需要进入容器,这也是相对比麻烦的。
2023-02-12 01:10:57
4985
原创 java实现电子发票中的发票税号等信息识别的几种可用方案
需要做一个电子发票中发票税号的识别,于是乎就开始去调研看有哪些方案,最先想到的就是OCR文字识别,自己去画框训练模型去识别税号等相关信息话不多说开整思路:思路一:百度AI平台去直接调用思路二:自己基于模型训练思路三:基于本地化代码识别票据中信息这几种思路接下来我都会详细展开说,且每种方式的优缺点博主也会说清楚,仅供大家参考
2023-02-09 22:43:53
5703
原创 【Docker 02】docker镜像和容器命令大全
对于入门学习者,更推荐的方式是通过官网的Reffrence手册,学习使用命令,不仅存在用法,选项参数的解释,还有用力example。本文讲解docker命令的基本语法结构+实战
2023-02-04 11:00:00
4119
原创 Spark 读取、写入时序数据库TDengine以及TDengine概述
TDengine 是一款高性能、分布式、支持 SQL 的时序数据库,其核心代码,包括集群功能全部开源(开源协议,AGPL v3.0)。TDengine 能被广泛运用于物联网、工业互联网、车联网、IT 运维、金融等领域。除核心的时序数据库功能外,TDengine 还提供缓存、数据订阅、流式计算等大数据平台所需要的系列功能,最大程度减少研发和运维的复杂度
2023-02-01 22:30:00
355
原创 【Docker 01】docker安装和基本理论内容
本文从docker基础知识开始讲解,从docker的来源,docker是什么,到docker如何安装,安装过程中遇到的坑是什么,通过白话的方式讲解docker东西,开启docker新的序列
2023-01-29 23:45:00
2980
原创 循序渐进大数据组件之--【Zookeeper 04】Java-API调用,代码操作
前面的章节都在说zookeeper的原理、特性、安装方式、服务使用等,本章节说一下zookeeper该如果在java代码中做一些操作,如 :连接、增加节点、删除节点、查询节点、修改节点数据、节点状态监控等。至此,zookeeper的基本操作到此结束!废话不多说,直接上代码。
2023-01-15 00:00:00
7862
原创 循序渐进大数据组件之--【Zookeeper 03】进阶(选举机制以及ZBA协议)
Zookeeper进阶(选举机制以及ZBA协议),ZAB(Zookeeper Atomic Broadcast)协议是专门为zookeeper设计的用于进行原子广播和崩溃恢复的一套协议 。ZAB是基于2PC算法设计实现的,利用了过半性+PAXOS进行了改进
2023-01-06 18:12:20
7957
原创 循序渐进大数据组件之--【Zookeeper 02】安装和使用详情
这一篇主要内容为 Zookeeper安装和使用,下一篇讲解zookeeper的选举机制和相关的ZBA协议
2022-12-31 23:30:00
8450
原创 循序渐进大数据组件之--【Zookeeper 01】特点和应用场景
大数据生态系统里很多组件的命名都是某种动物,例如Hadoop是🐘,hive是🐝,zookeeper就是动物园管理者,是管理大数据生态系统各组件的管理员。本文主要介绍zk的一些基本概念
2022-12-29 23:45:00
5554
原创 Flume实时采集mysql数据到kafka中并输出
Flume实时采集mysql数据到kafka中并输出。Apache Flume是一个分布式的、可靠的、可用的系统,用于有效地收集、聚合和将大量日志数据从许多不同的源移动到一个集中的数据存储。在大数据生态圈中,flume经常用于完成数据采集的工作。其实时性很高,延迟大约1-2s,可以做到准实时。又因为mysql是程序员常用的数据库,所以以flume实时采集mysql数据库为例子。要了解flume如何采集数据,首先要初探其架构:Flume 运行的核心是 Agent。Flume以agent为最小的独立运行单位。
2022-11-30 23:30:00
3348
原创 java main方法控制日志级别
今天想用main方法去调用http请求,结果已经没什么问题了,但是打印了一大堆Http业务内部的日志信息,特别挡路,导致想看到的业务输出看不到,所以经过多方求证,进行了日志等级处理。
2022-11-15 14:04:15
6238
原创 Hadoop集群增加节点不删数据详细操作步骤
Hadoop集群增加节点不删数据详细操作步骤:首先说一下这篇文章:今天主要说说当节点不够时,如何快速扩容,一会会儿就搞定了,上步骤:前面这些步骤跟上面一样,我就不细说了。
2022-10-26 16:14:24
856
原创 hive详细安装步骤启动等
此文章包含两部分,一部分是mysql的安装,一部分是hive的安装和启动,当然安装mysql是为了给hive做元信息存储,使用本文的前提是Hadoop已经安装。
2022-10-18 19:28:09
8612
原创 超详细的yum方式安装mysql
本文主要介绍通过Yum方式安装mysql服务,此种方式比较简单,采用yum的方式,如果是采用离线安装包的方式请参考博主的另一篇文章:Linux安装mysql以及遇到的问题解决办法_Alex_81D的博客-CSDN博客
2022-10-18 18:41:41
9913
原创 数据治理系列:数据血缘关系
数据治理系列:数据血缘关系。数据血缘关系,从概念来讲,即数据的全生命周期中,数据与数据之间会形成多种多样的关系,这些关系与人类的血缘关系类似,所以被称作数据的血缘,数据血缘是元数据产品的核心能力,但数据血缘是典型的看起来很美好但用起来门槛很高的技术。从数据血缘获得的方法看,自动解析基本是不靠谱的,机器学习方法还处于设想阶段,手工收集及时性,一致性很差,系统跟踪极大依赖于规范化管理能力和工具的集成能力,但却是我比较认可的方法,要建立数据血缘一定要具体场景导向、小处着手。
2022-10-14 10:13:13
1558
原创 数据治理系列:数据标准管理
数据治理系列:数据标准管理,数据标准就是通过制定一套由管理制度、管控流程、技术工具共同组成的体系,来对数据定义、分类、格式、编码等标准化管理。通俗地讲,对企业来说,数据标准就是对数据类型、长度、归属部门等定义一套统一的规范,以保障不同业务系统之间可以做到对同样的数据理解统一和使用统一。
2022-10-14 09:49:15
1502
原创 浅谈Java分布式与集群
在日常操作中,相信很多人在怎么理解Java分布式与集群问题上存在疑惑,今天就大概说说,不注意听,觉得两个可能是同一个东西,其实这个是两个概念。一句话概括:分布式是以缩短单个任务的执行时间来提升效率的,而集群则是通过提高单位时间内执行的任务数来提升效率。把一个业务,拆分成多个业务,然后部署到不同的服务器上,这就是分布式。公司的网上商城,拆分成两个系统:商品系统和支付系统,用户在商品系统上完成浏览商品、加入购物车的动作,在支付系统上完成支付动作(当然用户是无法感知到是在两个系统上完成的操作),这就是分布式。
2022-10-12 11:25:58
1026
转载 浅谈微服务架构与服务治理的Eureka和Dubbo
通俗的理解方式就是一个独立的业务模块,以业务的范围来确定领域的边界。以电商项目为例子,购物车可以看成一个领域,下订单看成一个领域,商城看成一个领域,而当某个领域发展的过于庞大的时候,再对其进行拆分,分成更细分的领域,原则就是保证每一个领域做的是一个单独的事情,做到最大程度的解耦。用微服务的架构设计来作为议题,很有喧哗取宠的偏向,所以需要声明一下,本文说的都是基于博主当前浅薄的软件开发经验与贫瘠的架构设计思想得出的浅见,仅是一家之言,而且其中必定包含了很多的确认型偏误,对此现在无法避免。
2022-09-23 17:10:15
143
原创 SparkSql批量插入或更新,保存数据到Mysql中
在sparksql中,保存数据到数据,只有Append,Overwrite,ErrorIfExists,Ignore四种模式,不满足项目需求,此处大概说一下我们需求,当业务库有数据发生变化,需要更新、插入、删除数仓中ods层的数据,因此需要改造源码。......
2022-07-20 15:41:16
9637
原创 Spark on Hive 和 Hive on Spark的区别与实现
Spark on Hive 是Hive只作为存储角色,Spark负责sql解析优化,执行。这里可以理解为Spark 通过Spark SQL 使用Hive 语句操作Hive表 ,底层运行的还是 Spark RDD。具体步骤如下:【总结】Spark使用Hive来提供表的metadata信息。Hive on Spark是Hive既作为存储又负责sql的解析优化,Spark负责执行。这里Hive的执行引擎变成了Spark,不再是MR,这个要实现比Spark on Hive麻烦很多, 必须重新编译你的spark和导入
2022-06-13 11:03:40
1835
原创 Es入门之kibana对Elasticsearch做增删改查等自定义操作
问题:通过match_all匹配后,会把所有的数据检索出来,但是往往真正的业务需求并非要找全部的数据,而是检索出自己想要的;Range过滤允许我们按照指定的范围查找一些数据:操作范围:gt::大于,gte::大于等于,lt::小于,lte::小于等于。2)找到原始数据中,所有性别是男生的,过滤年龄等于20的。如果此时想查询喜欢旅游的,并且不能是男孩的,怎么办?查询喜欢旅行的,如果有男性的则显示,否则不显示。查询出喜欢旅行的,并且年龄是20岁的文档。1)找到原始数据中,是女生的,喜欢旅游的。
2022-05-17 10:56:54
361
原创 数据治理系列:数据仓库物理分层_数据仓库逻辑分层
OLTP 与 OLAPOLTP 联机事务处理OLTP是传统关系型数据库的主要应用,主要用于日常事物、交易系统的处理1、数据量存储相对来说不大2、实时性要求高,需要支持事物3、数据一般存储在关系型数据库 (oracle 或 mysql 、postgresql中)OLAP 联机分析处理OLAP是数据仓库的主要应用,支持复杂的分析查询,侧重决策支持1、实时性要求不是很高, ETL 一般都是 T+1 的数据;2、数据量很大;3、主要用于分析决策;清晰数据结构:每一个数据分
2022-05-07 17:06:11
57
原创 Spark读取Hive的方式以及出现的雷坑
spark读取Hive的三种方式1.HiveJDBC2.通过服务的方式直接读数据源因为hive只是起到映射的作用,所以最简单、直观的方式就是直接读取数据的存储组件(HDFS\HBASE)1.HiveJDBC方式一:val spark = pec.get[SparkSession]()val dbtable = "( " + sql + ") AS Temp"val jdbcDF = spark.read.format("jdbc") .option("url", jdbc
2022-04-27 10:43:46
2680
Linux版 tomcat8.0 下载
2018-05-23
json转换时所需jar
2018-03-23
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人