Swordfall-CSDN博客

原创 maven打包方式（多模块）

1.概述　　这篇IntelliJ IDEA自身以及maven项目打包方式(单模块)博文主要是描述项目下单个模块的打包方式，但是现在很多项目往往是多模块组成的，单模块打包方式与多模块差异比较大，所以我们还是有必要学下如何配置多模块打包。2.maven打包方式(多模块)　　这里我们主要采用的是maven-assembly-plugins插件进行zip打包。以下面为例：　　　　asse...

2021-07-22 16:30:00 4033

原创 Flink安装部署

1.概述　　Flink采用的稳定版本为flink-1.12.1。以往我们所熟知的Map Reduce，Storm，Spark等框架可能在某些场景下已经没法完全地满足用户的需求，或者是实现需求所付出的代价，无论是代码量和架构的复杂程度可能都没法满足预期的需求。新场景的出现催产出新的技术，Flink即为实时流提供了新的选择。Flink相对简单的编程模型加上其高吞吐、低延迟、高性能以及支持exa...

2021-05-08 18:18:00 490 1

原创 solr集成kerberos认证

1.软件版本　　Solr 8.82.kerberos2.1. 添加solr用户　　在kdc中为solr添加主体并生成用于验证HTTP请求的keytab文件，为每个要运行solr的主机创建一个keytab文件，并将主体名称与主机一起使用：root@kdc:/# kadmin.localkadmin.local: addprinc -randkey HTTP/<hostnam...

2021-04-25 16:55:00 826

原创 Ranger集成Kerberos

1. 生成用户主体　　在kerberos服务器生成用于ranger的用户主体：kadmin.localaddprinc -randkey http/node3@EXAMPLE.COMaddprinc -randky root/node3@EXAMPLE.COMktadd -norandkey -kt rangadmin.keytab http/node3@EXAMPLE.COM ro...

2021-04-22 15:46:00 1555

原创 Openldap集成Kerberos

1.概述　　openldap集成kerberos，有两种，一是openldap和kerberos各自拥有个人的数据库，一是openldap和kerberos共用一个数据库。　　以下操作是在https://www.cnblogs.com/swordfall/p/12009716.htmlKerberos基本原理、安装部署及用法和https://www.cnblogs.com/swordf...

2021-04-22 15:20:00 543

原创 Openldap开启TLS

1. 概述　　为啥要用TLS?　　Openldap默认使用简单验证，对slapd的所有访问都使用明文密码通过未加密通道进行。为了确保信息安全，需要对信息进行加密传输，SSL(Secure Sockets Layer)是一个可靠的解决方案。　　它使用X.509证书，由可信任第三方(Certificate Authority(CA))进行数字签名的一个标准格式的数据。有效的数字签名意味着已签名...

2021-04-20 11:07:00 2975

1. 概述Apache Iceberg is an open table format for huge analytic datasets. Iceberg adds tables to Presto and Spark that use a high-performance format that works just like a SQL table.官方的定义，iceberg是一种表...

2021-03-17 14:48:00 5811 4

原创 Hive架构与源码分析（整理版）

1.Hive的架构　　　　Hive的体系结构可以分为以下几部分：用户接口主要有三个：CLI，JDBC/ODBC和WebUI。①其中，最常用的是CLI，即Shell命令行；②JDBC/ODBCClient是Hive的Java客户端，与使用传统数据库JDBC的方式类似，用户需要连接至Hive Server；③Web UI是通过浏览器访问。Hive将元数据存储...

2021-02-01 17:50:00 1887

原创 Javaweb中PO BO VO DTO POJO DAO DO概念理解

1.概念及理解　　PO、DTO、VO、BO都叫POJO，就是个简单的java对象。这些概念用于描述对象的类型；由于java是面向对象的语言；程序的世界就是各个对象之间的“交互”；在交互的过程中会存在多个层次，每个层次中所拥有的内容都是不一样的；PO(Persistant Object)持久化对象。　　　　用于表示数据库中的一条记录映射成的java对象。PO仅仅用于表示数据，没...

2020-11-19 19:47:00 614 1

原创 JVM分析工具与查看命令

1.概述　　无可避免地，我们都需要用到多线程的一天。单纯地使用多线程的参数设置，比如-Xms、-Xmx、-Xss等，还不足够，我们还要学会如何分析JVM里面的线程状况。　　在进行java程序问题定位时，内存问题定位是很关键的，jvm自带的命令可以方便的在生产监控和打印堆栈的日志信息帮忙我们来定位问题！虽然jvm调优成熟的工具已经有很多：jconsole、大名鼎鼎的VisualVM，I...

2020-09-30 16:32:00 203

原创 PostgreSQL数据库的sql语法（整理版）

1.概述　　PostgreSQL是一个免费的关系型数据库服务器（ORDBMS）2.登录数据库　　以用户的名义登录数据库，这时使用的是psql命令psql -h 127.0.0.1 -U dbuser -p 5832 -d database　　上面的命令的参数含义如下：-h指定服务器-p指定端口-U指定用户-d指定数据库　　输入上面的命令以后，系统会...

2020-07-29 16:56:00 2274

原创 Kerberos与各大组件的集成

1. 概述　　Kerberos可以与CDH集成，CDH里面可以管理与hdfs、yarn、hbase、yarn、kafka等相关组件的kerberos凭证。但当我们不使用CDH的时候，也需要了解hdfs、yarn、hbase和kafka是如何配置关联kerberos的。　　该文是建立在Kerberos基本原理、安装部署及用法博客的前提上的，需要首先了解Kerberos的基本原理、安装用...

2020-07-23 11:25:00 854

原创 Kerberos基本原理、安装部署及用法

1. 概述　　Kerberos是一种认证机制。　　目的是，通过密钥系统为客户端/服务器应用程序提供强大的认证系统：保护服务器防止错误的用户使用，同时保护它的用户使用正确的服务器，即支持双向验证；Kerberos协议的整个认证过程实现不依赖于主机操作系统的认证，无需基于主机地址的信任，不要求网络上所有主机的物理安全，并假定网络上传送的数据包可以被任意地读取、修改和插入数据，简而言之，K...

2020-07-14 19:09:00 3546

原创 Spring IoC和AOP的实现原理解析（整理版）

1.概述　　Spring核心概念为IoC和AOP。2.SpringIoC底层原理　　要了解控制反转，需要先了解软件设计的一个重要思想：依赖倒置原则。　　什么事依赖倒置原则？假设我们设计一辆汽车：先设计轮子，然后根据轮子大小设计底盘，接着根据底盘设计车身，最后根据车身设计好整个汽车。这里就出现了一个“依赖”关系：汽车依赖车身，车身依赖底盘，底盘依赖轮子。但这种设计维护性很低。...

2020-05-13 14:46:00 2768 2

原创数据结构-二叉树、B树、B+树、B*树（整理版）

1. 二叉树　　二叉树的特点：　　①所有非叶子节点至多拥有两个儿子（Left和Right）；　　②所有节点存储一个关键字；　　③非叶子节点的左指针指向小于其关键字的子树，右指针指向大于其关键字的子树；　　　　二叉树的搜索，从根节点开始，如果查询的关键字与结点的关键字相等，那么就命中；否则，如果查询关键字比节点关键字小，就进入左儿子；如果比节点关键字大，就进入右儿子；如...

2020-05-12 16:05:00 1778

原创数据结构：八大数据结构分类（转载版）

数据结构分类　　数据结构是指相互之间存在着一种或多种关系的数据元素的集合和该集合中数据元素之间的关系组成。　　常用的数据结构有：数组、栈、链表、队列、散列表、树、堆、图，如图所示：　　　　每一种数据结构都有着独特的数据存储方式。1.数组　　数组是可以在内存中连续存储多个元素的结构，在内存中的分配也是连续的，数组中的元素通过数组下标进行访问，数组下标从0开始。例如下面这...

2020-05-09 16:49:00 612

原创 SolrCloud存储数据于HDFS的方法

1.概述　　solrCloud数据存储在hdfs上的方法有两种，一是配置solr.in.sh脚本文件，比较简单的一种方式；二是配置solrconfig.xml配置文件，比较繁琐点，需要更新到zookeeper上。　　说明：solrcloud部署是按照https://www.cnblogs.com/swordfall/p/11967385.html“Ranger安装部署 - so...

2020-04-26 11:49:00 678

原创 Ranger安装部署 - 扩展组件安装

1. ranger-hdfsplugin安装1.1 安装ranger hdfs plugin软件包# pwd/opt/app/ranger-release-ranger-1.2.0/target# tar -zxvf ranger-1.2.0-hdfs-plugin.tar.gz1.2修改install.properties文件# pwd/home/redpeak...

2020-04-20 15:05:00 2441 2

原创 openldap安装部署

1. LDAP概述1.1. LDAP基本概念LDAP的目的是为各种软件提供统一标准的认证机制，所有软件就可以不再用独有的用户管理方法，而是通过这种统一的认证机制进行用户认证。1.2. LDAP的主要应用场景网络服务：DNS服务统一认证服务Linux PAM（ssh，login, cvs…）Apache访问控制各种服务登录（ftpd， php based, perl ba...

2020-04-15 11:42:00 1804 2

原创 Java代码规范总结，更新持续中

1.实例的开启与关闭var zkClient: ZooKeeper = null try { zkClient = new ZooKeeper(getZkUrl(), 2000, new Watcher { override def process(watchedEvent: WatchedEvent): Unit = {} ...

2020-01-14 18:03:00 193

原创 Ranger安装部署 - solr安装

1.概述　　Lucene是一个Java语言编写的利用倒排原理实现的文本检索类库；　　Solr是以Lucene为基础实现的文本检索应用服务。Solr部署方式有单机方式、多机Master-Slaver方法、Cloud方式。　　SolrCloud是基于Solr和Zookeeper的分布式搜索方案。当索引越来越大，一个单一的系统无法满足磁盘需求，查询速度缓慢，此时就需要分布式索引。在分布...

2019-12-02 00:38:00 1409

原创 Ranger安装部署

1.概述　　Apache Ranger是大数据领域的一个集中式安全管理框架，目的是通过制定策略（policies）实现对Hadoop组件的集中式安全管理。用户可以通过Ranger实现对集群中数据的安全访问。2.Ranger内部组件　　Ranger由三个模块组成：Ranger内部组件、依赖组件、扩展性组件。2.1内部组件　　包含的内部组件如下：Ranger Admin...

2019-11-29 19:06:00 2451 1

原创 Hadoop跨集群迁移数据（整理版）

1.什么是DistCp　　DistCp(分布式拷贝)是用于大规模集群内部和集群之间拷贝的工具。它使用Map/Reduce实现文件分发，错误处理和恢复，以及报告生成。它把文件和目录的列表作为map任务的输入，每个任务会完成源列表中部分文件的拷贝。由于使用了Map/Reduce方法，这个工具在语义和执行上都会有特殊的地方。1.1DistCp使用的注意事项　　1.DistCp会尝试...

2019-11-18 16:40:00 1375

原创 IntelliJ IDEA自身以及maven项目打包方式

1. Idea自身打包方式1.1创建Artifacts　　快捷键（Ctrl+Alt+Shift+S）打开项目的Project Structure。在Artifacts创建　　　　接着，指定main class，如下：　　　　最后，得到创建得到的artifacts　　1.2打包Artifacts　　在菜单栏目选Build，最后一栏Build A...

2019-10-31 22:32:00 3286 1

原创互联网UV，PU，TopN统计

1.UV、PV、TopN概念1.1 UV（unique visitor）即独立访客数　　指访问某个站点或点击某个网页的不同IP地址的人数。在同一天内，UV只记录第一次进入网站的具有独立IP的访问者，在同一天内再次访问该网站则不计数。UV提供了一定时间内不同观众数量的统计指标，而没有反应出网站的全面活动。1.2PV（page view）页面浏览量或点击量　　页面浏览量...

2019-09-30 23:52:00 1363

原创各大公司Java面试题收录含答案（整理版）

　　本文分为17个模块，分别是：Java基础、容器、多线程、反射、对象拷贝、Java web、异常、网络、设计模式、算法、Spring/Spring MVC、Spring Boot/Spring Cloud、Hibernate、MyBatis、MySQL、Redis、JVM。1. Java基础1.JDK和JRE有什么区别？答：　　JDK：Java Development Ki...

2019-08-06 11:11:00 682

原创 Java面试题收录含答案（整理版）持续中....

　　本文分为17个模块，分别是：Java基础、容器、多线程、反射、对象拷贝、Java web、异常、网络、设计模式、算法、Spring/Spring MVC、Spring Boot/Spring Cloud、Hibernate、MyBatis、MySQL、Redis、JVM。1. Java基础1.JDK和JRE有什么区别？答：　　JDK：Java Development Ki...

2019-08-06 11:11:00 523

原创收集各大互联网公司大数据平台架构

1.五种主流的大数据架构收集各大互联网公司大数据平台架构1. 酷狗音乐的大数据平台架构：https://www.infoq.cn/article/kugou-big-data-platform-restructure2.滴滴大数据离线和实时平台架构和实践：https://myslide.cn/slides/153073.美图大数据平台lamda架...

2019-07-16 23:11:00 1186

原创 Hive UDF函数构建

1.概述　　UDF函数其实就是一个简单的函数，执行过程就是在Hive转换成MapReduce程序后，执行java方法，类似于像MapReduce执行过程中加入一个插件，方便扩展。UDF只能实现一进一出的操作，如果需要实现多进一出，则需要实现UDAF。　　Hive可以允许用户编写自己定义的函数UDF，来在查询中使用。2.UDF类型　　Hive中有3种UDF：　　UDF：操作...

2019-07-16 11:46:00 389

原创 Impala集成C3P0的连接方式

1. 概述　　Impala是Cloudera公司主导开发的新型查询系统，它提供SQL语义，能查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有的Hive系统虽然也提供了SQL语义，但由于Hive底层执行使用的是MapReduce引擎，仍然是一个批处理过程，难以满足查询的交互性。相比之下，Impala的最大特点也是最大卖点就是它的快速。【百度百科】　　Impala是用于处理存...

2019-07-15 16:25:00 429

原创 Hive自定义函数及优化（整理版）

1. 概述1.1 hive的特征：可以通过SQL轻松访问数据的工具，从而实现数据仓库任务，如提取/转换/加载（ETL），报告和数据分析；它可以使已经存储的数据结构化；可以直接访问存储在Apache HDFS或其他数据存储系统（如Apache HBase）中的文件；Hive除了支持MapReduce计算引擎，还支持Spark和Tez这两种分布式计算引擎；它提供类似sql的...

2019-07-04 01:31:00 3016

原创 Hive优化（整理版）

1. 概述1.1 hive的特征：可以通过SQL轻松访问数据的工具，从而实现数据仓库任务，如提取/转换/加载(ETL)，报告和数据分析；它可以使已经存储的数据结构化；可以直接访问存储在Apache HDFS或其他数据存储系统(如Apache HBase)中的文件；Hive除了支持MapReduce计算引擎，还支持Spark和Tez这两种分布式计算引擎；它提供类似sql的查询...

2019-07-04 01:31:00 465

原创 Mongodb设置用户权限（整理版）

本文是基于windows 下 MongoDB 4.0编写，据了解MongoDB在3.0以后的版本中权限设置有变化。1. 创建超级用户安装完之后，打开命令行，进入mongodb安装目录，在bin目录下执行 mongod 启动，该模式是不需要安全认证的模式，启动后，使用可视化工具如：Robo 3T 打开shell窗口先创建一个有grant权限的用户，如root权限的用户：u...

2019-06-04 15:51:00 587

原创 CDH6.2离线安装（整理版）

1.概述　　CDH，全称Cloudera's Distribution, including Apache Hadoop。是Hadoop众多分支中对应中的一种，由Cloudera维护，基于稳定版本的Apache Hadoop构建，提供了Hadoop的核心（可扩展存储、分布式计算），最为重要的是提供基于web的用户界面。　　CDH的优点：版本划分清晰，更新速度快，支持Kerberos安全认证...

2019-06-04 11:04:00 5514 1

原创 Java—网络编程总结（整理版）

1.概述　　计算机网络是通过传输介质、通信设施和网络通信协议，把分散在不同地点的计算机设备互连起来的，实现资源共享和数据传输的系统。网络编程就是编写程序使互联网的两个（或多个）设备（如计算机）之间进行数据传输。Java语言对网络编程提供了良好的支持。通过其提供的接口我们可以很方便地进行网络编程。2.网络分层　　计算机网络20世纪60年代出现，经历了20世纪70年代、80年代和90年...

2019-05-05 15:20:00 337

原创 Java调用第三方http接口的方式

1. 概述在实际开发过程中，我们经常需要调用对方提供的接口或测试自己写的接口是否合适。很多项目都会封装规定好本身项目的接口规范，所以大多数需要去调用对方提供的接口或第三方接口（短信、天气等）。在Java项目中调用第三方接口的方式有：①通过JDK网络类Java.net.HttpURLConnection；②通过common封装好的HttpClient；③通过Apache封装好的C...

2019-04-29 11:44:00 2018

原创 23种设计模式全解析（转载版）

1.设计模式的分类总体来说设计模式分为三大类：创建型模式，共五种：单例模式、原型模式、工厂方法模式、抽象工厂模式、建造者模式。结构型模式，共七种：适配器模式、装饰器模式、代理模式、外观模式、桥接模式、组合模式、享元模式。行为型模式，共十一种：策略模式、模板方法模式、观察者模式、迭代子模式、责任链模式、命令模式、备忘录模式、状态模式、访问者模式、中介者模式、解释器模式。其实还有...

2019-04-26 00:33:00 329

原创 Java虚拟机—垃圾收集器（整理版）

1.概述　　如果说收集算法是内存回收的方法论，那么垃圾收集器就是内存回收的具体实现。Java虚拟机规范中对垃圾收集器应该如何实现并没有规定，因此不同的厂商、不同版本的虚拟机所提供的垃圾收集器都可能会有很大差别，并且一般都会提供参数供用户根据自己的应用特点和要求组合出各个年代所使用的收集器。这里讨论的收集器基于JDK 1.7 Update 14之后的HotSpot虚拟机（在这个版本中正式提供了商...

2019-04-20 14:50:00 855

原创 Java虚拟机—垃圾回收算法（整理版）

1.概述　　由于垃圾收集算法的实现涉及大量的程序细节。因此本节不打算过多地讨论算法的实现，只是介绍几种算法的思想及其发展过程。主要涉及的算法有标记-清除算法、复制算法、标记-整理算法、分代收集算法。2.标记-清除算法　　最基础的收集算法是”标记-清除“（Mark-Sweep）算法，如同它的名字一样，算法分为”标记“和”清除两个阶段“：首先标记出所有需要回收的对象，在标记完成后统一回收...

2019-04-19 01:02:00 451

原创 Java虚拟机—Java8内存模型（整理版）

1.概述对于Java程序员来说，在虚拟机自动内存管理机制的帮助下，不再需要手动释放内存，不容易出现内存泄露和内存溢出问题。一旦出现内存泄露和溢出方面的问题，如果不了解虚拟机是怎样使用内存的，排查错误将会异常艰难。2.运行时数据区域 Java虚拟机在执行Java程序的过程中会把它所管理的内存划分为若干个不同的数据区域。这些区域都有各自的用途，以及创建和销毁的时...

2019-04-18 19:00:00 7435

空空如也

空空如也