徐小慧_Blog-CSDN博客

原创 Hadoop Web 控制台安全认证

Hadoop 2.x 版本，默认情况下，可以通过 http://ip地址:50070/explorer.html 访问HDFS页面，查看Namenode和Datanode状态，以及HDFS的相关文件等。但是这存在安全隐患，可能导致我们的文件信息的泄露，如果我们在页面里面添加个认证机制，只有验证之后的用户才可以进入页面里操作。...

2022-07-13 09:42:27 3203 9

原创 Java读取Hbase数据，使用POI操作Excel模板,并定时发送带有Excel附件的邮件

Java读取Hbase数据，使用POI操作Excel模板,并定时发送带有Excel附件的邮件

2022-05-30 10:15:44 1013 3

原创 Java,POI操作Excel报错NullPointException

目录解决方案解决方案row = sheet.getRow(rowIndex);if (row == null) {row = sheet.createRow(rowIndex);}没有用过的row就是null，null时要创建。

2022-05-21 22:17:47 787 1

解决该问题有以下两个方法1、改表法可能是你的帐号不允许从远程登陆，只能在localhost。这个时候只要在localhost的那台电脑，登入mysql后，更改 “mysql” 数据库里的 “user” 表里的 “host” 项，从”localhost”改称”%”mysql -u root -pvmwaremysql>use mysql;mysql>update user set host = '%' where user = 'root';mysql>flush privile

2022-02-16 14:43:05 1333 1

原创 Linux高可用之Keepalived(一)

Linux高可用之Keepalived（一）前言一、Keepalived二、VRRP（虚拟路由器冗余协议）三、keepalived工作原理前言公司需要向外网环境提供数据的传输，要求高可用且不暴露自己的IP，这就可以用到了Nginx和Keepalived的虚拟IP设置。一、KeepalivedKeepalived是基于vrrp协议的一款高可用软件。Keepailived有一台主服务器和多台备份服务器，在主服务器和备份服务器上面部署相同的服务配置，使用一个虚拟IP地址对外提供服务，当主服务器出现故障时

2021-12-16 10:45:47 2314 2

原创 SVN客户端无法连接SVN服务器，主机积极拒绝

svn客户端无法连接SVN服务器，主机积极拒绝一、出现的情况二、原因三、解决办法1. 确定SVN的地址有没有输入错误2. 被访问的SVN服务有没有启动成功；3. HTTP服务有没有启动4. 防火墙没有SVN的端口号3690的解决方法一、出现的情况执行上下文错误：由于目标计算机积极拒绝，无法连接。二、原因确定SVN的地址有没有输入错误被访问的SVN服务有没有启动成功；HTTP服务有没有启动防火墙没有SVN的端口号3690的解决方法三、解决办法1. 确定SVN的地址有没有输入错误自行检

2021-11-02 16:50:24 17687

原创 springboot如何配置，同时支持https和http

1、配置springboo资源文件application.ymlhttp: port: 18666 #服务端口#https 配置server: port: 8002 ssl: key-store: D:\test.keystore enabled: true key-store-password: 123456 key-store-type: JKS2、启动类中添加 @Value("${http.port}") private Integer port;

2021-11-01 20:50:54 2331 2

原创 Postman请求https接口配置

Postman请求https接口配置1.进入postman的设置界面；2.关闭general下面的ssl校验；3.切到Certificates页签，并添加客户端校验；二、使用步骤1.引入库2.读入数据总结1.进入postman的设置界面；点击settings进入设置2.关闭general下面的ssl校验；3.切到Certificates页签，并添加客户端校验；二、使用步骤1.引入库代码如下（示例）：import numpy as npimport pandas as pdimp

2021-11-01 14:35:20 12472 2

原创 Https 生成证书添加至SpringBoot配置

Https 生成证书添加至SpringBoot配置前言一、keytool生成keystore1. 生成 keystore 文件2. 查看 keystore 文件详细信息3. 从 keystore 中导出证书（公钥）二、springboot 配置 https三、Postman 发送 https 请求前言HTTPS是HTTP的安全版本，旨在提供数据传输层安全性（TLS）。当你的应用不使用HTTP协议的时候，浏览器地址栏就会出现一个不安全的提示。HTTPS加密每个数据包以安全方式进行传输，并保护敏感数据免受窃

2021-11-01 10:39:48 3577

原创 Hive常用命令行

Hive常用命令行1. Hive 中一次性使用命令2. 快速查找属性名3. 从文件中执行Hive查询4. 查看操作命令历史5. 显示字段名称1. Hive 中一次性使用命令不仅如此hive shell , 直接在linux界面执行hive命令,可使用 -ehive -e 'select * from hivetest.movie_info';在使用该功能，保存查询结果到一个文件，增加 -S 选项可以开启静默模式，这样可以输出结果中去掉‘OK’,'Time Taken’等行，如下面hive -S

2021-09-26 11:13:12 1729 2

原创 Spark运行架构（一）

Spark运行架构1. 运行架构2. 核心组件2.1 Driver2.2 Executor2.3 Master & Worker2.4 ApplicationMaster3. 运行模式3.1 Yarn Client模式3.2 Yarn Cluster模式4. 提交流程1. 运行架构Spark框架的核心是一个计算引擎，整体来说，它采用了标准 master-slave 的结构。如下图所示，它展示了一个 Spark执行时的基本结构。图形中的Driver表示master，负责管理整个集群中的作业任务

2021-09-15 14:30:02 819 1

原创 Spark 为什么比 Hadoop 快（六）

Spark 基于 Hadoop MapReduce 算法实现的分布式计算，拥有 Hadoop MapReduce 所具有的优点，并且具有更高的运算速度。Spark 能够比 Hadoop 运算更快，主要原因是：Hadoop 在一次 MapReduce 运算之后，会将数据的运算结果从内存写入到磁盘中，第二次 MapReduce 运算时在从磁盘中读取数据，两次对磁盘的操作，增加了多余的 IO 消耗；而 Spark 则是将数据一直缓存在内存中，运算时直接从内存读取数据，只有在必要时，才将部分数据写入到磁盘中。除此之

2021-09-14 10:34:19 1075

原创 build.sbt报错cannot resolve symbol的解决办法

build.sbtcannot resolve symbol的解决办法1. 背景2. 报错3. 解决方案1. 背景IDEA 版本2017.2，开发语言Scala,在重新导入SBT项目的时候，build.sbt 爆红，cannot resolve symbol2. 报错如下图3. 解决方案3.1 删除.idea文件夹3.2 使用File->InvalidateCaches/Restart重启3.3 重启后，等IDEA重新生成.idea文件夹，报错解决！...

2021-09-09 16:44:19 1134 2

原创 Flink 流处理简介（一）

Flink 流处理简介（一）1. Flink 是什么2. 为什么要用 Flink3. 流处理的发展和演变4. Flink 的主要特点5. Flink vs Spark Streaming1. Flink 是什么Apache Flink 是一个框架和分布式处理引擎，用于对无界和有界数据流进行状态计算。ApacheFlink的数据流编程模型在有限和无限数据集上提供单次事件（event-at-a-time）处理。在基础层面，Flink程序由流和转换组成。Apache Flink的API：有界或无界数据

2021-09-02 15:45:42 531

原创 Ambari动态添加节点

Ambari添加节点背景措施操作步骤背景某一天发现作为postgre数据库的节点在ambari不显示了措施把丢失节点添加回来操作步骤1.点击Host,再点击Add new hosts2.查看vi /etc/hosts 主机名称填写到host name 位置；上传添加节点的秘钥 id_rsa如下图：3. 点击 Register and Confirm4. 点击OK5. 可以看到已添加成功，点击next6. 选择要添加的slave & clients,我选择了flume.

2021-09-01 17:22:32 859 2

原创 idea怎么创建python项目

idea怎么创建python项目安装python插件后重启IDEA在idea里面，File->new projects ，在弹出的工程界面找到python，选择sdk框架创建完成创建新的模块创建python package创建python file右键运行 helloworld 程序安装python插件后重启IDEA在idea里面，File->new projects ，在弹出的工程界面找到python，选择sdk一路next输入项目名称，点击finish框架创建完成创建

2021-09-01 11:25:24 9047 6

原创 Linux常用命令(一)

Linux常用命令1. 系统信息2. 文件和目录3. 文件搜索4. 磁盘空间5. 用户和群组6. 文件的特殊属性 - 使用 "+" 设置权限，使用 "-" 用于取消7. 打包和压缩文件8. 查看文件内容9. 文本处理Linux常用命令系列BlogLinux常用命令(一)Linux常用命令(二)1. 系统信息显示机器的处理器架构(1)arch显示机器的处理器架构(2)uname -m显示正在使用的内核版本uname -r 显示硬件系统部件 - (SMBIOS / DMI)

2021-08-31 14:18:55 2144

原创 Linux常用命令(二)

Linux常用命令全集1. 系统信息2. 系统的关机、重启以及登出3. 文件和目录4. 文件搜索5. 挂载一个文件系统6. 磁盘空间7. 用户和群组8. 文件的特殊属性 - 使用 "+" 设置权限，使用 "-" 用于取消9. 打包和压缩文件10. RPM 包 - （Fedora, Redhat及类似系统）11. YUM 软件包升级器 - （Fedora, RedHat及类似系统）12. DEB 包 (Debian, Ubuntu 以及类似系统)13. APT 软件工具 (Debian, Ubuntu 以及类

2021-08-31 14:06:02 797

原创 Ambari的Metrics Collector启动后自动关闭的解决

在使用Ambari的时候，由于种种原因，难免会出现这样那样的问题。今天，我们就来看一下Ambari-Metrics启动成功几秒钟后又自动关闭的解决办法。1.如下图，某一节点Metrics Collector 启动后自动关闭2.在安装Ambari-Metircs的机器上面查看服务是否关闭：使用ambari-metrics-monitor status和ambari-metrics-collector status命令查看。可以看到ambari-metrics-collector是停止状态。3.如果服

2021-08-30 16:01:41 2251 4

原创 Python发邮件: ‘ascii’ codec can’t encode character u’\u201c’ in position 9

错误：ERROR:root:Uncaught exception running rule RMS alert email rule: ‘ascii’ codec can’t encode character u’\u201c’ in position 9: ordinal not in range(128)指定文件字符集为utf-8，在文件头部加入以下代码，解决：import sysreload(sys)sys.setdefaultencoding('utf-8')...

2021-08-27 15:29:14 336 2

原创 Flume配置格式（二）

Flume系列BlogFlume架构及基本原理(一)Flume配置格式（二）Flume 配置通常需要以下两个步骤：分别定义好 Agent 的 Sources，Sinks，Channels，然后将 Sources 和 Sinks 与通道进行绑定。需要注意的是一个 Source 可以配置多个 Channel，但一个 Sink 只能配置一个 Channel。基本格式如下：<Agent>.sources = <Source><Agent>.sinks = &lt

2021-08-26 10:54:34 307 2

原创 HDP官网文档查找攻略

访问官网地址：https://docs.hortonworks.com/index.html点击HDP可以看到相关文档链接，也可以选择相关版本点击相关版本查看相关文档

2021-08-25 14:58:16 1440

原创 Flume架构及基本原理(一)

Flume基本原理Flume概述Flume的定义Flume的优缺点Flume的体系架构Flume四种模式&拓扑结构Flume概述Flume的定义Flume由Cloudera公司开发，是一个分布式、高可靠、高可用的海量日志采集、聚合、传输的系统。Flume支持在日志系统中定制各类数据发送方，用于采集数据；Flume提供对数据进行简单处理，并写到各种数据接收方的能力。简单的说，Flume是实时采集日志的数据采集引擎。Flume的优缺点优点分布式：flume分布式集群部署，扩展性好

2021-08-25 14:08:54 751 8

转载 HBase常用的shell命令（八）

HBase常用的shell命令1. general 命令1.1. hbase shell1.2. help命令1.3. 显示集群状态status1.4. 查询数据库版本version1.5. 显示当前用户与组 whoami1.6.查看操作表的命令table_help1.7 退出HBase Shell exit2. ddl命令2.1 创建表create2.2 修改(添加、删除)表结构Schema alter2.2.1 添加一个列族2.2.2 删除一个列族2.2.3 修改列族的属性2.3 异步修改Schema

2021-08-18 14:20:42 1172 2

原创 kafka常用的shell命令(二)

kafka常用的shell命令1、创建topic2、查看创建的topic3、生产者发布消息命令4、消费者接受消息命令5、kafka启动6、查看kafka节点数目7、kafka中的概念8、查看主题信息9、为主题创建分区10、查看kafka进程11、kafka宕机重启后，消息不会丢失12、kafka其中一个broker宕机后，对消费者和生产者影响很小（命令行下测试）1、创建topicbin/kafka-topics.sh --create --zookeeper localhost:2181 --repl

2021-08-17 14:10:56 1530 2

原创 Kafka史上最详细原理总结(一)

Kafka史上最详细原理总结一、概念理解（1）产生背景（2）Kafka的特性（3）Kafka场景应用（4）Kafka一些重要设计思想二、消息队列通信的模式（1）点对点模式（2）发布订阅模式三、Kafka的架构原理（1）基础架构与名词解释（2）工作流程分析（1）发送数据（2）保存数据（3）消费数据一、概念理解Kafka是最初由Linkedin公司开发，是一个分布式、支持分区的（partition）、多副本的（replica），基于zookeeper协调的分布式消息系统，它的最大的特性就是可以实时的处理大

2021-08-17 11:20:07 11354 7

原创 Ambari 服务器节点动态换盘操作

ambari 服务器节点动态换盘操作1. 操作背景2. 操作方案3. 操作步骤（ambari-agent开机自启动）3.1 服务器192.168.11.22 启动维护模式3.2 运维人员进行换内存操作3.3 换内存完成3.4 关闭维护模式3.5 启动该主机所有的服务3.6 重启spark数据处理应用4. 监控集群1. 操作背景基于ambari的HDP集群其中一spark节点出现内存盘损坏故障。Applicaton是Spark on yarn的模式，共8台Spark节点。不要怕，大胆的开启host Le

2021-08-13 10:37:03 1514 6

原创 HBase读写数据流程（一）

HBase读写数据流程1. 架构分析1.1 HMaster1.2 HRegionServer1.3HRegion1.4 Store2. 复合键设计3. 数据结构3.1 RowKey3.2 Column Family3.3 Cell3.4 Time Stamp3.5 命名空间4. HBase读取数据流程5. HBase写入数据流程5.1 数据flush过程5.2 数据合并过程1. 架构分析1.1 HMaster负责管理HBase元数据，即表的结构、表存储的Region等元信息。负责表的创建，删

2021-08-12 11:24:42 1018

原创 Hbase中两种缓存机制memstore和blockcache详解（二）

Hbase中两种缓存机制memstore和blockcacheHBase中Block的概念MemStoreBlockCacheLruBlockCacheSlabCacheBucketCacheExternalBlockCacheHBase 读路径HBase在实现中提供了两种缓存结构：MemStore和BlockCache。MemStore 作为 HBase 的写缓存，保存着数据的最近一次更新，响应的 BlockCache 作为 HBase 的读缓存，保存着最近被访问的数据块。HBase中Block的概念

2021-08-12 10:55:21 3195

原创 Scala中样例类和普通类的区别

Scala中样例类的设计主要是为了代替Java语言中的JavaBean和RPC通信使用，普通类和样例类之间的区别总结如下：首先创建一个样例类：object CaseClassDemo { def main(args: Array[String]): Unit = { val user:User = User("zhangsan",26) }}case class User(name:String,age:Int)二者之间的区别可以从编译后产生的.class文件中得知，

2021-08-12 09:53:48 416

原创 Java和Scala的区别

Java和Scala的区别1,变量的声明2,函数的声明3,基本类型4,静态5,对字符串的支持6,类7,Scala中不支持Break8,访问范围问题9,通配符10,默认导入的类11,特质 trait -- 可以类比java中的接口，但是又和接口非常不一样可以说scala来源于java，但又高于java,我的理解是scala就是在java语言的基础上增加了一层编码的 “壳” 让程序人员可以通过函数式编程的方式来开发程序。由于scala最终被编译为.class文件运行在JVM虚拟机中,其实本质上还是java,

2021-08-12 09:42:21 1125

原创 redis两种持久化配置

redis持久化配置RDB 配置方式AOF 配置方式redis有两种持久化方式：RDB和AOF。具体差别跟优缺点可参考redis数据的两种持久化方式对比，本篇只介绍这两种方式怎么配置RDB 配置方式默认情况下，是快照RDB的持久化方式，将内存中的数据以快照的方式写入二进制文件中，默认的文件名是dump.rdbredis.conf默认配置：save 900 1save 300 10save 60 10000配置含义：900秒内，如果超过1个key被修改，则发起快照保存300秒内

2021-08-10 16:58:56 124

原创 spark与flink的区别（五）

spark与flink的区别（1）设计理念（2）架构方面（3）任务调度（4）时间机制（5）容错机制（6）吞吐量与延迟（1）设计理念1、Spark的技术理念是使用微批来模拟流的计算,基于Micro-batch,数据流以时间为单位被切分为一个个批次,通过分布式数据集RDD进行批量处理,是一种伪实时。2、Flink是基于事件驱动的，是面向流的处理框架, Flink基于每个事件一行一行地流式处理，是真正的流式计算. 另外他也可以基于流来模拟批进行计算实现批处理。（2）架构方面1、Spark在运行时的主要角

2021-08-10 14:26:45 1267

转载 Spark性能优化指南——高级篇（四）

Spark性能优化指南——高级篇调优概述数据倾斜发生时的现象数据倾斜发生的原理如何定位导致数据倾斜的代码某个task执行特别慢的情况某个task莫名其妙内存溢出的情况查看导致数据倾斜的key的数据分布情况数据倾斜的解决方案解决方案一：使用Hive ETL预处理数据解决方案二：过滤少数导致倾斜的key解决方案三：提高shuffle操作的并行度解决方案四：两阶段聚合（局部聚合+全局聚合）解决方案五：将reduce join转为map join解决方案六：采样倾斜key并分拆join操作解决方案七：使用随机前缀和

2021-08-09 17:54:39 760

转载 Spark性能优化指南——基础篇（三）

Spark性能优化指南——基础篇调优概述原则一：避免创建重复的RDD原则二：尽可能复用同一个RDD原则三：对多次使用的RDD进行持久化原则四：尽量避免使用shuffle类算子原则五：使用map-side预聚合的shuffle操作原则六：使用高性能的算子原则七：广播大变量原则八：使用Kryo优化序列化性能原则九：优化数据结构**资源参数调优**整套方案主要分为开发调优、资源调优、数据倾斜调优、shuffle调优几个部分。开发调优和资源调优是所有Spark作业都需要注意和遵循的一些基本原则，是高性能Spark

2021-08-09 17:25:03 530

原创如何查看HBase的HFile（四）

如何查看HBase的HFile查看HFile命令HFile放在哪里了？查看方式一查看方式二查看HFile命令命令：hbase hfile -v -p -m -f hdfs://ns/hbase/data/default/TEST1/5cd31c374a3b30bb859175495cbd6905/df/9df89dc0db7f401e943c5ded6d49d956HFile放在哪里了？查看方式一可以通过HBase的web页面查看HFile名称及路径。步骤如下：① 打开Web管理页面，选择表

2021-08-09 15:57:14 1381

原创 HBase BulkLoad批量写入数据实战(六)

1.概述在进行数据传输中，批量加载数据到HBase集群有多种方式，比如通过HBase API进行批量写入数据、使用Sqoop工具批量导数到HBase集群、使用MapReduce批量导入等。这些方式，在导入数据的过程中，如果数据量过大，可能耗时会比较严重或者占用HBase集群资源较多（如磁盘IO、HBase Handler数等）。今天这篇博客笔者将为大家分享使用HBase BulkLoad的方式来进行海量数据批量写入到HBase集群。2.内容在使用BulkLoad之前，我们先来了解一下HBase的存储机

2021-08-09 15:28:03 867

原创 webservice接口和http接口（API接口）的区别

什么是web service？答：soap请求是HTTP POST的一个专用版本，遵循一种特殊的xml消息格式Content-type设置为: text/xml任何数据都可以xml化。为什么要学习web service？答：大多数对外接口会实现web service方法而不是http方法，如果你不会，那就没有办法对接。web service相对http (post/get)有好处吗？ 1.接口中实现的方法和要求参数一目了然 2.不用担心大小写问题

2021-08-09 14:02:25 3823 2

原创 Spark SQL原理及常用方法详解（二）

Spark SQL一、Spark SQL基础知识1、Spark SQL简介（1）简单介绍（2）Datasets & DataFrames（3）Spark SQL架构（4）Spark SQL的特点二、入门案例1、案例代码2、SparkSession3、代码分析（1）创建spark Session（2）创建Dataset样例类创建Tuple创建JSON创建RDD创建（3）创建DataframeJson创建样例类创建Tuple创建RDD创建三、SQL操作（常用的操作方法）printSchema()show

2021-08-09 11:04:02 2541

空空如也

空空如也