- 博客(124)
- 资源 (3)
- 收藏
- 关注
原创 Java开发的小技巧
整理开发中的小技巧,每个都不难,但总忍不住忘记,虽然自己写代码也能实现,但有现成的工具,为什么不用呢?启动项目时,去掉不想注入的配置文件@SpringBootApplication(exclude = {DataSourceAutoConfiguration.class,DruidDataSourceAutoConfigure.class})JSON和对象之间的转换...
2019-10-21 18:37:51 225
原创 大数据-数据分析初步学习,待补充
日活跃用户,定义一个自然日不重复(去重)的用户,跨时区(如全球服务),则关心最近24小时。一般PV/PV,UV/UV,也有PV/UV,eg:详情页PV/详情页UV=人均页面查看数。月活跃用户,MAU
2024-06-19 23:41:17 931
原创 企业数据中台功能介绍
对象id,对象标识,对象名称,类型(01表02视图)数据条数,存储大小,资源分类,更新频率(每日),更新方式(全表),业务系统id,数据源id,资源状态。数据线id,数据对象id,数据线标识,数据线名称,数据线类型,长度,精度,空置率,是否代码项,关联表代码表,是否主键,是否增量字段。资源id,名称,摘要,业务分类,表情信息,业务系统id数据源id,状态(试运行,上线,下线)数据源id,类型(01hive,02oracle),业务系统id,ip,端口,登录,密码。
2024-06-12 15:12:29 1079 1
原创 springboot学习整理
spring boot 是spring提供的一个子项目,用于快速构建spring应用程序spring构建: 1 导入依赖繁琐;2 项目配置繁琐spring Framework: 核心spring Boot :快速构建spring项目spring Data: 数据获取spring cloud:服务治理spring AMQP:消息传递spring Security: 认证授权。
2024-05-14 08:08:41 816
原创 简单了解多线程
并发: 在同一时刻,多个指令在单一CPU上交替指向并行:在同一时刻,多个指令在多个CPU上同时执行2核4线程,4核8线程,8核16线程,16核32线程。
2024-03-18 16:37:35 1258
原创 JVM理解学习
栈:程序运行需要的内存空间虚拟机栈: 每个线程运行时所需要的内存数据结构:先进(压栈)后出(出栈)一个栈可以看成多个栈帧组成,每个栈帧可以看成每个方法的运行时需要的内存(参数,局部变量,返回地址等)定义1 每个线程运行时所需要的内存,成为虚拟机栈2 每个栈由多个栈帧(Frame)组成,对应着每次方法调用时所占用的内存3 每个线程只能有一个活动栈帧,活动栈帧即当前正在执行的那个方法1 垃圾回收是否涉及栈内存?答:不需要。每次方法结束后都会出栈,自动被回收,所以不需要垃圾回收。
2024-03-12 22:33:01 1226
原创 HIVE 大数据学习
Apache Hive是一款建立在Hadoop之上的开源系统,可以将存储在Hadoop文件中的,基于表提供了一种类似SQL的查询模式,称为,用于访问和分析存储在Hadoop文件中的大型数据集Hive核心是将 HQL转换成MapReduce程序,然后将程序提交到Hadoop集群执行。Hive由Facebook实现并开源。
2024-03-09 08:50:46 1162
原创 Sqoop 学习
Sqoop是Hadoop生态体系和RDBMS(关系型数据库)体系之间传送数据的一种工具Hadop生态系统:HDFS,Hbase,Hive等RDBMS包括:Mysql,Oracle,DB2等Import:数据导入, RDBMS(DBinputFormat) -> Hadoop(TestoutputFormat)export: 数据导出,Hadoop(DBoutputFormat) -> RDBMS(TestInputFormat)
2024-03-08 11:42:31 770
原创 Flink 大数据 学习详情
flink提交作业和执行任务,需要几个关键组件:客户端(client):代码由客户端获取并作转换,之后提交给 jobManagerJobManager:就是flink集群里的“管事人”,对作业进行中央调度管理;
2024-03-06 17:28:15 1056
原创 Azkaban 大数据 任务调度
Azkaban: 是一个定时、批量工作流任务调度器特点: 1 兼容任何版本的hadoop 2 易于使用的web用户界面 3 简单的工作流上传 4 方便设置任务之间的关系 5调度工作流 6模块化和可插拔的插件机制 7认证/授权 8能够杀死并重新启动工作流 9有关失败和成功的电子邮件提醒简单的工作流:crontab复杂的工作流:azkaban,ooizeAzkaban的三个关键组件 1...
2024-03-01 09:19:11 934 1
原创 大数据Hadoop生态圈
存储: HDFS(namenode,datanode)计算:MapReduce(map+reduce,基于磁盘)便于用sql操作:Hive(核心 metastore,存储这些结构化的数据),同类的还有Impala,hbase等基于yaml的资源调度hive :通过 HQL访问,适合执行ETL,报表查询,数据分析等数据仓库任务支持运行在不同的计算框架,包括MapReduce,Spark,Tez等支持java数据库连接(JDBC),可以建立与ETL,BI工具的通道。
2024-02-26 14:57:26 1024
原创 Debezuim详细介绍
Debezuim是用于捕获变更数据的开源工具,可以响应数据库的所有插入,修改,删除操作。它是一种CDC工具,工作原理和大家所熟悉的Canal,Maxwell一样,均是抽取 数据库日志 来变更的Debezuim是构建在 Apach Kafka之上,并提供Kafka连接器来监视特定的数据库管理官网: https://debezuim.io/
2024-02-24 11:29:13 623
原创 DataX学习详解
DataX 是阿里巴巴开源的一个 异构数据源离线同步工具致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP,MongDB等各种异构数据源之间稳定高效的数据同步功能(简而言之:不同数据源的离线同步工具)
2024-02-23 23:05:39 1328
原创 springboot junit
pom文件依赖<dependencies> <dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-test</artifactId> <scope>test</scope> </dependency
2021-08-16 14:38:40 187
原创 TransformerUtils工具类
constantTransformer:返回常量// 返回常量System.out.println(TransformerUtils.constantTransformer("1").transform("3")); // 1nullTransformer:返回nullnopTransformer: 返回原值,不变cloneTransformer:return PrototypeFactory.getInstance(input).create();asT...
2021-08-13 17:56:34 644
原创 PredicateUtils工具类
List<String> list1 = new ArrayList<>(Arrays.asList("1", "2", "3", "1", "1"));List<String> list2 = new ArrayList<>(Arrays.asList("1", "3"));System.out.println(CollectionUtils.countMatches(list1, new Predicate() { @Override.
2021-08-13 16:03:16 642
原创 CollectionUtils方法测试
List<String> list1 = Arrays.asList("1","2","3","1","1");List<String> list2 = Arrays.asList("1","3");注意:Arrays.asList 生成的list是Arrays类中的一个内部类,不能进行add和remove,否则报错union,intersection,disjunction,subtractSystem.out.println(CollectionUtils.un.
2021-08-13 14:24:22 746
转载 Java必会的工具库
1. Java自带工具方法1.1 List集合拼接成以逗号分隔的字符串// 如何把list集合拼接成以逗号分隔的字符串 a,b,c List<String> list = Arrays.asList("a", "b", "c"); // 第一种方法,可以用stream流 String join = list.stream().collect(Collectors.joining(",")); System.out.println(join); // 输出 a,b,c
2021-08-12 10:29:34 339
原创 KafKa 详细讲解
知识点:消息队列:发布(pub)/订阅模式,点对点(P2P)模式kafka:是一个分布式、支持分区的(partition)、多副本的(replica),基于zookeeper协调的分布式消息系统 特性: 可以实时的处理大量数据以满足各种需求场景Broker:Kafka节点,一个Kafka节点就是一个broker,多个broker可以组成一个Kafka集群Topic:一类消息,消息存放的目录即主题,例如page view日志、click日志等都可以以topic的形式存在...
2020-09-21 11:36:34 1374
原创 Zookeeper
概述: zookeeper是开源的分布式的,为分布式应用提供协调服务的Apache项目从设计模式理解: 是一个基于观察者模式设计的分布式服务管理框架,它负责存储和管理大家都关系的数据,然后接受观察者的注册,一旦这些数据的状态发生变化,zookeeper就将负责通知已经在zookeeper上注册的那些观察者做出相应的反应。zookeeper = 文件系统+通知...
2020-04-23 14:04:51 582 1
原创 IO:BIO NIO AIO网络编程模型
参考视频:https://www.bilibili.com/video/av76223318?p=5I/O模型简单的解释:用什么样的通道进行数据的发送和接收,很大程度上决定了程序通讯的性能Java共支持三种网络编程模型:BIO,NIO,AIOBIO:Blocking IO同步并阻塞(传统阻塞型),服务器实现模式为一个连接一个线程,即客户端有连接请求时,服务器端就需要启动...
2019-12-26 13:36:40 452
原创 IDEA快捷键
Ctrl + F:当前文件中查找元素Ctrl + N:查找所有java类Ctrl + Shirt + N:查找java类以及其他格式文件Ctrl + Alt + O:优化导入的类Ctrl + H:打开窗口,查看接口或抽象类下面所有实现的结构Ctrl+Shift+Backspace:可以跳转到上次编辑的地Ctrl+ Alt + left/right:前后导航编辑过的地方...
2019-12-04 13:26:25 165
转载 logback logback.xml常用配置详解
转载:http://aub.iteye.com/blog/1101260转载:https://blog.csdn.net/sun_t89/article/details/52130839这两篇看完,日志差不多精通了。...
2019-12-02 17:57:39 191
原创 Spring 常用注解
@Configuration / @Beanpublic class Demo { public static void main(String[] args) { ApplicationContext applicationContext = new AnnotationConfigApplicationContext(MyC...
2019-11-29 12:34:09 247
原创 自定义类加载器
为什么要双亲委派?答案:安全。 public static void main(String[] args) throws ClassNotFoundException { //加载指定路径下的类 Class clazz = Demo.class.getClassLoader().loadClass(""); //加载资源 ...
2019-11-24 11:01:15 182
原创 JAVA的RPC框架之一:分布式框架 Dubbo
RPC框架:RPC是远程过程调用(Remote Procedure Call)的缩写形式。SAP系统RPC调用的原理其实很简单,有一些类似于三层构架的C/S系统,第三方的客户程序通过接口调用SAP内部的标准或自定义函数,获得函数返回的数据进行处理后显示或打印RPC 是一种技术思想而非一种规范或协议,常见 RPC 技术和框架有:应用级的服务框架:阿里的 Dubbo/Dubbox、G...
2019-11-15 17:31:44 215
原创 ELK: Beats
Beats: 轻量级日志采集器filebeat: 日志文件(主要)metricbeat: 指标(主要)packetbeat:网络数据,流量指标winlogbeat:Win事件日志auditbeat:审计日志heartbeat:运行时间监控Filebeat:由两个重要组件组成:prospector (勘探者)和 harvester(收割机)harves...
2019-11-14 15:04:31 208
原创 Linux 常用命令
查看进程ps -ef | grep nginx ps -ef | grep tomcat 杀死进程kill -s 9 1827 查看开放的端口:查看开放的端口号firewall-cmd -list-all设置开发的端口号firewall-cmd -add-service=http --permanent;firewall-cmd -add-port=80/tcp--p...
2019-11-13 12:39:17 150
原创 Nginx
nginx基本概念1 nginx 是什么?能做什么?nginx是一个高性能的HTTP和反向代理的Web服务器,同时也提供了IMAP/POP3/SMTP服务轻量级,占有内存少,并发性强,有报告表明Nginx能支持50000个并发连接数功能:1 反向代理 2 负载均衡 3 动静分离 4 高可用2 反向代理正向代理:在客户端(浏览器)配置代理服务器,通过代理服务器...
2019-11-13 10:47:48 389
原创 将一个大文件拆分成小文件的小题目:Hash拆分小文件
题目一: 两个30G的大文件,里面存储URL地址,现在有一台8G内存的服务器,找出两个文件中相同的值根据hash值分成小文件(字符串或者数字,值相同则hash值相同 : ss.get(0).hashCode()),然后两个文件比较相同的值题目二:一个1T的大文件,里面存储URL地址,现在有一台8G内存的服务器,找出文件中相同的值根据hash值分成小文件,然后小文件中比较...
2019-11-12 17:40:25 1353
原创 设计模式 简单描述功能,自观,非完全正确
1 原型模式:浅复制Copy,深复制2 外观模式:任意组合方法后对外提供一个接口3 模板模式:方法中的抽象方法又子类具体实现抽象方法4 工厂模式:IFactory iFactory = new AddFactory();5 抽象工厂模式:因为工厂模式若AddFactory这个类需要被替代,则所有引用都要被替换,代价太大。 因此使用一个类来封装创建对象6 观察者模式:监听对象,通知...
2019-11-12 14:52:18 214
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人