自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(127)
  • 收藏
  • 关注

原创 中标麒麟(兆芯版)Java相关工具及CDH集群安装测试

中标麒麟安装配置前言:​ 1、MongoDB好像不适合中标麒麟,上辈子时候冤家么,接连出错,目前还在调试;​ 2、文章中出现的相关包我都有,需要的小伙伴可以私聊我,我发你;​ 3、剩余一个问题希望遇到的伙伴可以私聊一下,如果说安装中遇到什么问题也可以和大帅来一起探讨;​ 4、相关测试及准备如下,相关软件测试相关软件/工具是否可用(Yes/No)Jdk-1.8Ye...

2020-01-15 10:18:09 3271 1

原创 虚拟机VM12磁盘扩容

虚拟机VM12磁盘扩容一、扩容前提条件​ 1、要执行操作的虚拟机不能是克隆机​ 2、要执行的虚拟机不能含有快照二、扩容步骤1、打开虚拟机磁盘界面(虚拟机是关闭状态)2、点击扩展(虚拟机是关闭状态)​ 我这里是因为有快照,所以是灰色的,这里分配需要的磁盘大小即可。我这里是60->200(我这里是分配好的)3、开启虚拟机,进入虚拟机终端,查看磁盘相关信息df -h 查看磁盘...

2020-01-09 21:59:17 745

原创 中标麒麟高级服务器V7安装

中标麒麟高级服务器V7安装中标麒麟高级服务器操作系统软件(兆芯版)一、安装步骤准备:​ 1.相关中标麒麟镜像​ 2.vncviewer,由它去远程连接服务器上的机器节点1、首先进入界面呈现该页面分为:​ 安装、测试和故障排除选择,所以一步步来吧2、语言选择界面3、进入具体一些设置界面​ 可以在这设置时区和磁盘分区,至于时区的话,第一次安装时是默认的,在安装完成后第二次重启...

2019-12-31 21:40:56 8284 4

原创 关于实现Office在线编辑预览知识调研(基于Java)

关于实现Office在线编辑预览知识调研(基于Java)作为职场小白被分配到这个任务也是一脸懵逼,做了十几天左右的研究,在七八种方案中,推荐给大家三种方案一、永中Office算是国内评价最好的一款,需要在服务器上搭建相关服务,产品是java做的,所有兼容性不错。永中Office收费比较贵,分为预览和编辑两个收费,API需要和客服要,技术相对比较保密。华为,小米,163邮箱都是和这个合作,...

2019-12-30 11:19:05 790 2

原创 相同集群间数据迁移

相同集群间数据迁移操作网上帖子很多,主要就是一条命令,附下:hadoop distcp hdfs://172.51.113.13:8020/user/wifi/huajie/2018-12-30 hdfs://172.51.113.63:8020/user/wifi/cs/13是源集群node,63是目标集群node集群检查:​ 可以查看文件大小:hdfs dfs -du -h /全...

2019-12-24 09:42:35 175

原创 有关于OpenOffice实现在线预览和编辑问题

有关于OpenOffice实现在线预览和编辑问题某日,直属上级说:你去了解一下OpenOffice周三搞明白,然后我就开始看这方面的文档。总结一下踩到的坑和一些经验吧。1、下载​ 去官网上可以看到最新的版本是4.7.1了,下载就好了,默认安装路径:C:\Program Files (x86)\OpenOffice 4\program 然后傻瓜安装就可以,这个路径代码中多次会用到,注意留意。...

2019-12-24 09:21:24 7656

原创 部分Fortify代码扫描高风险解决方案

部分Fortify代码扫描高风险解决方案一、Category: Access Control: Database问题描述:​ Database access control 错误在以下情况下发生:​ 1.数据从一个不可信赖的数据源进入程序。​ 2.这个数据用来指定 SQL 查询中主键的值。官方案例:示例 1: 以下代码使用可转义元字符并防止出现 SQL 注入漏洞的参数化语句,以...

2019-12-13 10:56:50 13892 3

原创 将数据库表结构转成数据字典所需SQL命令

SELECTCOLUMN_NAME 字段名称,COLUMN_TYPE 数据类型,NULL 主键,IS_NULLABLE 是否为空,COLUMN_COMMENT 字段描述FROMinformation_schema. COLUMNSWHERETABLE_NAME = ‘表名’AND TABLE_SCHEMA = ‘库名’;全选 结果1数据 后,再在word建合适的表格,注意第...

2019-12-10 10:02:51 581

转载 Yarn资源调度

由于Yarn良好的兼容性和扩展性,目前可以支持大部分数据引擎,所以了解Yarn的资源调度原理很有必要,Yarn主要由四个重要角色组成:ResourceManager:顾名思义资源管理器,主要负责资源管理和调度,ResourceManager主要由两个组件构成:ApplicationManager,主要负责两类...

2019-11-21 19:03:52 126

转载 Hbase RowKey设计原理

rowkey设计原则和方法rowkey设计首先应当遵循三大原则:rowkey长度原则rowkey是一个二进制码流,可以为任意字符串,最大长度为64kb,实际应用中一般为10-100bytes,它以byte[]形式保存,一般设定成定长。一般越短越好,不要超过16个字节,注意原因如下:1、目前操作系统都是64位系...

2019-11-21 18:47:47 870

转载 Sqoop

1 Sqoop简介      Apache Sqoop(SQL-to-Hadoop)项目旨在协助RDBMS与Hadoop之间进行高效的大数据交流。用户可以在 Sqoop 的帮助下,轻松地把关系型数据库的数据导入到 Hadoop 与其相关的系统 (如HBase和Hive)中;同时也可以把数据从 Hadoop 系统里抽取并导出到关系型数据库...

2019-11-21 18:38:36 264

转载 常见的压缩格式

压缩的好处和坏处好处减少存储磁盘空间降低IO(网络的IO和磁盘的IO)加快数据在磁盘和网络中的传输速度,从而提高系统的处理速度坏处由于使用数据时,需要先将数据解压,加重CPU负荷2. 压缩格式压缩比压缩时间可以看出,压缩比越高,压缩时间越长,压缩比:Snappy>LZ4>LZO>GZIP>BZIP2需要安装;linux系统下没有对应的命令d. b...

2019-11-21 18:35:44 876

转载 数据仓库和数据库的区别

什么是数据仓库? 数据仓库(Data Warehouse),可简写为DW或DWH,数据仓库,是为了企业所有级别的决策制定计划过程,提供所有类型数据类型的战略集合。它出于分析性报告和决策支持的目的而创建。为需要业务智能的企业 ,为需要指导业务流程改进、监视时间,成本,质量以及控制等;数据仓库能干什么?(举几个栗子)年度销售目标的制定,需要根据以往的历史报表进行决策,不能随便制定。优化业务流...

2019-11-21 18:25:06 287

转载 Yarn三种调度策略

理想情况下,我们应用对Yarn资源的请求应该立刻得到满足,但现实情况资源往往是有限的,特别是在一个很繁忙的集群,一个应用资源的请求经常需要等待一段时间才能的到相应的资源。在Yarn中,负责给应用分配资源的就Scheduler。其实调度本身就是一个难题,很难找到一个完美的策略可以解决所有的应用场景。为此,Yarn提供了多种调度器和可配置的策略供我们选择。  在Yarn中有三种调度器可以选择:FI...

2019-11-21 18:21:01 1661

转载 常见垃圾回收器分类

垃圾回收器分为新生代和老年代垃圾回收器。新生代垃圾回收器:Serial(单线程)、ParNew(多线程)、Parallel Scavenge(多线程)老年代垃圾回收器:Serial Old(单线程)、Parallel Old(多线程)、CMS(标记-清除算法)整堆回收器:G1新生代垃圾回收器一般采用复制算法回收垃圾,优点是效率高,缺点是内存利用率低老年代垃圾回收器一般采用标记-整理算法...

2019-11-21 18:15:24 273

转载 索引原理-btree索引与hash索引的区别

btree索引是 一级索引,不支持区间查询操作,但数据量大的时候查询速度快hash索引是 二叉树索引,具有二叉树的特点Hash索引结构的特殊性,其检索效率非常高,索引的检索可以一次定位,不像B-Tree索引需要从根节点到枝节点,最后才能访问到页节点这样多次的IO访问,所以Hash索引的查询效率要远高于B-Tree索引。可能很多人又有疑问了,既然Hash索引的效率要比B-Tree高很多,为什么...

2019-11-21 18:12:18 481

转载 B、B+、LSM树

动态查找树主要有:二叉查找树、平衡二叉树、红黑树、B树、B+树。前面三种是典型的二叉查找树,查找的时间复杂度是O(log2N)与树的深度有关系,那么降低树的深度也就可以提升查找效率。这时就提出了平衡多路查找树,也就是B树以及B+树。B树和B+树非常典型的场景就是用于关系型数据库的索引(MySQL)B树B树是一种平衡多路搜索树,B树与红黑树最大的不同在于,B树的结点可以有多个子女,从几个到几千...

2019-11-21 18:05:03 177

原创 Impala

Impala一、简介Cloudera公司推出,提供对HDFS、Hbase数据的高性能、低延迟的交互式SQL查询功能基于Hive使用内存计算,兼顾数据仓库、具有实时、批处理、多并发等优点是CDH平台首选的PB级大数据实时查询分析引擎二、架构无主模型Impalad数量 = DataNode数量 DataNode负责存数据,Impalad负责计算客户端可以预估数据量的大小,来指定适合...

2019-11-12 17:43:51 237

原创 Flume

Flume一、定义Flume是一个高可用的,高可靠的,分布式海量日志采集、聚合和传输的系统Flume基于流式架构,灵活简单Flume最主要的作用就是,实时读取服务器本地磁盘的数据,将数据写入到HDFS中二、组成架构1 架构图Tips:​ 数据流动是batch​ Source端不是直接将数据传给Channel,而是将数据经过临时缓存(Transaction) 再传给Channel...

2019-11-12 17:33:02 181

原创 设计模式五-----原型模式

设计模式五-----原型模式​ 原型模式的构造过程就是选择一个对象(被称为原型对象或者“样本”),通过调用它的“克隆”方法就获得和它一样的对象。一般,我们称这个克隆出的结果为“副本”。TIPs: 在CLR底层,克隆本身又是一个ByDesign的内置机制。 CLR:公共语言运行库 (common language runtime,CLR) 是托管代码执行核心中的引擎。运行库为托管代码提供各种服...

2019-10-30 16:27:40 183

原创 设计模式类别图-----补发

2019-10-29 11:22:37 110

原创 设计模式四-----创建者模式

设计模式四-----创建者模式​ 创建者模式它一般用于创建复杂对象,从独立创建每个部分到最后的组装,他要承担一系列工作。由于把他创建的每各部分都独立为一个单一的过程,因此不仅可以完后才能较为“精细”的创建,还可以编排创建步骤,生成不同的目标实例。​ 在单件模式和抽象工厂模式中,对经典设计模式进行扩展时,构造的职责与指导构造过程的职责分别被不同对象所承担,同样,创建者模式中的组装和执行次序编排也...

2019-10-29 11:06:52 355 1

原创 设计模式三-----抽象工厂模式

设计模式三-----抽象工厂模式​ 抽象工厂模式与之前介绍的简单工厂模式和工厂方法模式目的一样,由于目标可能经常变化,因此需要通过工厂把这个创建的过程封装起来,让客户不需要自己直接new()目标类型。​ 简单工厂职责:构造某个具体类型,然后把实例作为抽象类型返回;​ 工厂方法职责:进一步抽象出一个抽象的创建者和一个抽象的产品类型,而实际的执行过程是具体工厂创建具体的产品类型;​ 项目中,有...

2019-10-28 15:20:51 195

原创 设计模式二-----单件模式

设计模式二-----单件模式​ 单件模式的主要用途在于控制某个类型的实例数量–有且仅有一个,例如与统计相关业务需求实现。(单件模式的主要意图就是控制该类只能够创建一个实例,同时向客户程序提供唯一访问它的全局访问点)​ 试图通过经典单件模式实现分布式环境下的“单件”不现实,因此,项目中的“单”字是有上下文和语义范围限制一、实现单件的方式外部方式:​ 客户程序使用某些全局对象时,做一些Tr...

2019-10-21 14:32:15 257

原创 设计模式一 —— 工厂模式

设计模式一 —— 工厂模式​ 工厂类型解决的是怎么new()的问题,它告诉我们可以通过增加新的对象专门管理“变化”。例如,我们为了解决new()引起的变化,我们就引入工厂类型,由新的工厂类型专门处理new()相关的“变化”,确保客户程序不受这些变化的直接影响。一、简单工厂类​ 简单工厂类是工厂方法和抽象工厂的“预备工作”1、简单工厂的特性/工厂类型和直接new()的不同​ 1、对加工的...

2019-10-19 16:16:34 166

原创 常见的注入方式

设计模式中常见的注入方式–依赖注入最近在求职,耽搁了,对于应届生来讲想找个大数据相关的工作何其困难。。。所以在填充一些自己不足之处,希望与君共勉。一、依赖注入DI​ 开发过程中,如果发现客户程序依赖某个(或某类)对象,我们就通常会对他们进行一次抽象,形成抽象类、接口。这样,客户程序就可以摆脱所依赖的具体类型。​ 那么“谁”担任这个重担呢?其实,很多时候创建型模式可以轻易的解决这个问题。但...

2019-10-19 16:13:34 2436 1

原创 面向对象设计原则(面向类)

持续详细更新23种设计模式

2019-10-09 17:27:32 106

原创 大数据知识点汇总---Redis,Spark,Kafka,Hive,Mysql,Hbase,Hadoop...

0、大数据5VVolume 体积大,高速率增长的数据量,PB为单位Velocity 数据增长速度快Variety 不同数据类型,文本、音频、视频Veracity 数据不确定性,大量数据带来不完整性和不一致性Vlue 数据价值 -------------------------------------------------------------------- Redis ---...

2019-09-16 19:27:36 2894

原创 Kafka-架构、命令行、生产消费数据、保存机制、拦截器、kafka Streams

Kafka一、消息队列普通消息传递,由A传递给B,容意发生的问题:​ 接收端B挂掉,发送端A不知,继续发送数据​ 发送端A的发送数据速度和接收端B速度必须保持一致1 消息队列模式添加消息队列后,A发送数据给消息队列,由消息队列选择发送模式发送给B发送模式主要有2种:​ 点对点模式,一对一,由接收端主动拉取​ 由接收端B去开启一个实时监控消息队列的线程,来查看消息队列是否有数据...

2019-08-30 20:02:11 1724

原创 Hive函数、压缩存储、调优汇总、权限管理

Hive函数、压缩存储、调优、权限一、函数1 系统内置函数显示自带函数的用法 desc function 函数名;详细显示自带函数的用法 desc function extended 函数名;2 自定义函数1)Hive 自带了一些函数,比如:max/min等,但是数量有限,自己可以通过自定义UDF来方便的扩展2)当Hive提供的内置函数无法满足你的业务处理需要时,此时就可以...

2019-08-28 21:11:56 354

原创 Hive分桶、动态分区、查询汇总、窗口函详解、视图索引、运行方式

Hive分桶、动态分区、查询、视图索引一、Hive参数hive当中的参数、变量,都是以命名空间开头通过${}方式进行引用,其中system、env下的变量必须以前缀开头命名空间读写权限含义hiveconf可读写hive-site.xml当中的各配置变量 例:hive --hiveconf hive.cli.print.header=truesyste...

2019-08-28 21:05:03 3043

原创 Hive简介、DDL操作(建表、分区、导入导出等)

Hive分析框架一、Hive简述Hive 建立在Hadoop文件系统上的数据仓库架构,并对存储在HDFS中的数据进行分析与管理Hive架构的核心/本质 --将数据通过SQL语句转换成MapReduce操作/转成hdfs操作数据仓库 --主要用来分析和管理数据,一般是查询操作,需要定期加载和刷新数据元数据Metastore(表字段定义,属性,存放位置等除本身数据之外的信息)存...

2019-08-28 21:00:59 1103

原创 Flink

Flink一、简介Flink核心是一个流式的数据流执行引擎,其针对数据流的分布式计算提供了数据分布、数据通信以及容错机制等功能。基于流执行引擎,Flink提供了诸多更高抽象层的API以便用户编写分布式任务:​ DataSet API, 对静态数据进行批处理操作,将静态数据抽象成分布式的数据集,用户可以方便地使用Flink提供的各种操作符对分布式数据集进行处理,支持Java、Scala和Pyt...

2019-08-14 19:43:41 12994

原创 kafka简介和Streaming-kafka

大数据第40天-kafka简介和Streaming-kafka高吞吐的分布式消息系统,默认存储磁盘,默认保存7天​ 时间策略删除,kafka和很多消息系统不一样,很多消息系统是消费完了我就把它删掉,而kafka是根据时间策略删除,而不是消费完就删除,在kafka里面没有一个消费完这么个概念,只有过期这样一个概念特点和特点​ 系统之间解耦合​ 峰值压力缓冲​ 异步通信(消息队列)​ 生...

2019-07-27 20:10:38 360

原创 SparkStreaming

大数据第39天-SparkStreaming一、SparkStreaming简介​ SparkStreaming是流式处理框架,是Spark API的扩展,支持可扩展、高吞吐量、容错的实时数据流处理,实时数据的来源可以是:Kafka, Flume, Twitter, ZeroMQ或者TCP sockets,并且可以使用高级功能的复杂算子来处理流数据。例如:map,reduce,join,win...

2019-07-26 21:03:53 382

原创 SparkSQL概述、6种不同数据格式创建DataFream方式、3种函数

大数据第38天-SparkSQL概述、6种不同数据格式创建DataFream方式一、SparkSQL简述1 SparkSQL产生Hive->Shark->SparkSQLShark Hive on Spark Hive即作为存储又负责sql的解析优化,Spark负责执行SparkSQL Spark on Hive Hive只作为储存角色,Spark负责sql解析优化,执行...

2019-07-25 17:39:03 944

原创 Spark-Shuffle管理机制、内存管理、文件寻址、调优、源码

Spark-Shuffle-机制、内存、寻址、调优、源码一、SparkShuffle概念​ reduceByKey会将上一个RDD中的每一个key对应的所有value聚合成一个value,然后生成一个新的RDD,元素类型是<key,value>对的形式,这样每一个key对应一个聚合起来的value注意:​ 数据在聚合之前RDD的partition可能存放在不同节点上(RDD是弹...

2019-07-24 10:21:05 390

原创 Spark广播变量、累加器、WebUI

大数据第37天-Spark广播变量、累加器、WebUI一、广播变量使用原因及优点​ Driver提交N个task到Excutor,Excutor会产生N个存放task的内存,换句话说就是,发送多少个task,就携带多少个Driver端副本,为了解决这种问题,需要用到广播变量​ 当给Driver端的变量贴上broadcast标签后,Excutor会产生一个BlockManager来管理bro...

2019-07-24 10:14:00 309

原创 Spark-Master源码和Master-HA

大数据第36天-Spark-Master源码和Master-HA源码[外链图片转存失败(img-SHo1KLdQ-1563852302856)(C:\Users\86158\AppData\Roaming\Typora\typora-user-images\1563850613904.png)]总结1:​ Master(startRpcEnvAndEndpoint)的工作主要有2部分组成...

2019-07-23 11:26:39 186

原创 Spark算子代码汇总

大数据第35天-Spark算子代码汇总算子分类​ Transformations转换算子延迟执行 需要Action算子触发才执行​ Action行动算子,触发执行​ 控制算子 cache persist checkpointTransformations​ 延迟执行 需要Action算子触发才执行map- 1:1 取数据数据是一行flatMap-1:n 数据是多行...

2019-07-23 08:13:23 260

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除