自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(53)
  • 收藏
  • 关注

原创 Keepalived工作原理及简单理解

一、keepalived的前世今生Keepalived起初是为LVS设计的,专门用来监控集群系统中各个服务节点的状态,它根据TCP/IP参考模型的第三、第四层、第五层交换机制检测每个服务节点的状态,如果某个服务器节点出现异常,或者工作出现故障,Keepalived将检测到,并将出现的故障的服务器节点从集群系统中剔除,这些工作全部是自动完成的,不需要人工干涉,需要人工完成的只是修复出现故障的服务节点。后来Keepalived又加入了VRRP的功能,VRRP(VritrualRouterRedundancy

2022-04-13 11:08:45 2384 1

原创 spring boot整合spark,基于yarn运行提交spark任务 spark on yarn

springboot整理spark,基于yarn提交job任务

2021-12-31 15:09:30 9724 13

原创 hdfs delegation token 过期问题分析

什么是delegation tokendelegation token其实就是hadoop里一种轻量级认证方法,作为kerberos认证的一种补充。理论上只使用kerberos来认证是足够了,为什么hadoop还要自己开发一套使用delegation token的认证方式呢?这是因为如果在一个很大的分布式系统当中,如果每个节点访问某个服务的时候都使用kerberos来作为认证方式,那么势必对KDC造成很大的压力,KDC就会成为一个系统的瓶颈。与kerberos的区别kerberos认证需三方参与,cl

2021-12-31 14:55:13 4187 1

原创 org.apache.spark.network.protocol.MessageWithHeader.touch(Ljava/lang/Object;)Lio/netty/util/Referenc

springboot 整合spark ,运行在yarn,各种问题…最近需求需要这样做一个分析平台,之前做过整合,是在standalone模式了,想了解的,可以关注一下,往下滑动!先看下这个问题,之前没遇到过啊,为啥这次整合问题这么多,idea本地测试少量数据sparkSql,几百兆吧。sql代码 :val livingSql = """ | select | count(imsi) livingCounts | from

2021-09-29 17:05:28 255

原创 unsafe symbol Unstable (child of package InterfaceStability) in runtime reflection universe

问题:java.lang.AssertionError: unsafe symbol Unstable (child of package InterfaceStability) in runtime reflection universe at scala.reflect.internal.Symbols$Symbol.<init>(Symbols.scala:237) at scala.reflect.internal.Symbols$TypeSymbol.<init>

2021-06-16 16:04:16 934

转载 数据仓库分层介绍(ETL、ODS、DW、APP、DIM)

数据仓库各层说明:一、数据加载层:ETL(Extract-Transform-Load)二、数据运营层:ODS(Operational Data Store)三、数据仓库层:DW(Data Warehouse)数据明细层:DWD(Data Warehouse Detail)数据中间层:DWM(Data WareHouse Middle)数据服务层:DWS(Data WareHouse Service)四、数据应用层:APP(Application)五、维表层:DIM(Dimension)

2021-05-26 10:47:27 7345 2

原创 sparkSql两表join关联的五种方式实现及原理

对于Spark来说有3中Join的实现,每种Join对应着不同的应用场景:Broadcast Hash Join : 适合一张较小的表和一张大表进行joinShuffle Hash Join : 适合一张小表和一张大表进行join,或者是两张小表之间的joinSort Merge Join : 适合两张较大的表之间进行join前两者都基于的是Hash Join,只不过在hash join之前需要先shuffle还是先broadcast。下面将详细的解释一下这三种不同的join的具体原理。Has

2021-05-07 17:43:45 7752 3

原创 redis插槽(slot)分配详解(集群动态新增或删除结点)

1.哈希槽的概念Redis 集群中内置了 16384 个哈希槽,当需要在 Redis 集群中放置一个 key-value时,redis 先对 key(有效值)使用 crc16 算法算出一个结果,然后把结果对 16384 求余数,这样每个 key 都会对应一个编号在 0-16383 之间的哈希槽,redis 会根据节点数量大致均等的将哈希槽映射到不同的节点。Redis 集群没有使用一致性hash, 而是引入了哈希槽的概念。有效值:1、 如果key中包含了{符号,且在{符号后存在}符号,并且{和}之间至

2021-03-30 18:45:49 26564 1

原创 java.util.concurrent.TimeoutException: Futures timed out after [300 seconds] spark广播变量超时

错误出处:在开发SparkSql 过程中,数据量比较大,进行处理操作问题:Caused by: java.util.concurrent.TimeoutException: Futures timed out after [300 seconds] at scala.concurrent.impl.Promise$DefaultPromise.ready(Promise.scala:219) at scala.concurrent.impl.Promise$DefaultPromise.resul

2021-02-25 10:35:23 8175 2

原创 spring boot整合spark,集群模式或local模式运行,http请求调用spark API,启动job任务配置、优化spark配置等

需求描述:前后端分离系统,用SpringBoot整合Spark API,调用大量数据(几百GB,上TB)进行处理计算,单机环境难以达到性能要求,此,需整合直接调用spark跑程序,且在集群跑…在此,一台测试服务器模拟,搭建伪分布spark集群,用standalone模式运行。文章目录一、集群环境二、项目配置环境一、集群环境包版本: 1.java1.8 2.spark 2.3.1 3.scala 2.11 4.CentOS Linux release 7.3.1611 (Core)

2021-01-22 11:37:45 9673 34

转载 spring-boot @注解大全

SpringBoot注解大全一、注解(annotations)列表@SpringBootApplication:包含了@ComponentScan、@Configuration和@EnableAutoConfiguration注解。其中@ComponentScan让spring Boot扫描到Configuration类并把它加入到程序上下文。@Configuration 等同于spring的XML配置文件;使用Java代码可以检查类型安全。@EnableAutoConfiguration 自动配置

2020-10-10 19:53:13 1127

原创 maven的参数详解

用了maven两三年了,都是拿过来直接用的,今天来细细讲解一下maven的各种参数:一、介绍Maven是基于项目对象模型(POM project object model),可以通过一小段描述信息(配置)来管理项目的构建,报告和文档的软件项目管理工具,简单的说就是用来管理项目所需要的依赖且管理项目构建的工具。二、maven作用Maven 官网:https://maven.apache.org在开发中,为了保证编译通过,我们会到处去寻找jar包,当编译通过了,运行的时候,却发现"ClassNot

2020-09-07 18:03:06 8271

原创 ubuntu16.04 离线deb包 安装vim 离线环境

ubuntu16.04 离线安装vim下载安装包:http://archive.ubuntu.com/ubuntu/pool/main/v/vim/vim-common_7.3.429-2ubuntu2.2_amd64.debvim-runtime_7.3.429-2ubuntu2.2_all.debvim_7.3.429-2ubuntu2.2_amd64.deb依次安装dpkg -i ****.deb成功

2020-09-01 10:19:42 6570 4

原创 ubuntu16.04 离线deb包 安装openssh 离线环境

ubuntu离线安装openssh下载安装包网址:https://launchpad.net/公司环境问题,不能联网。需要下载的deb包:openssh-client_6.6p1-7_amd64.debopenssh-sftp-server_6.6p1-7_amd64.debopenssh-server_6.6p1-7_amd64.debssh_6.6p1-7_all.deb依次进行安装,但在安装到openssh-server 缺少依赖包。先下载依赖包安装如下:libboost-ios

2020-09-01 10:13:28 4168 1

转载 Java 自带性能监控工具:监视和管理控制台 jconsole 的使用

1. 前言想验证你对 jvm 配的一些调优参数(比如 Xms、Xmx 等)有没有起作用吗?想不想实时监控你自定义的线程池的在实际运行时的线程个数、有没有死锁?应用出现 java.lang.OutOfMemoryError: Java heap space,你知道需要去调整 Xms、Xmx。想不想实时监控你的 Java 应用的堆内存使用情况,并根据峰值等数据设置最适合你的 Xms、Xmx 等参数?应用出现 java.lang.OutOfMemoryError: PermGen space,你知道需要

2020-06-08 13:14:25 462

转载 hadoop2.0在线升级,不停止hadoop集群

介绍HDFS 滚动升级允许单个的hdfs节点(守护进程)进行升级。例如,datanodes 节点可以单独升级不影响namenodes。反之亦然。升级在hadoop2.0版本,hdfs 支持 name services的ha功能,并且是强一致性的。这两个特性可以让我们有机会实现升级hdfs集群而不需要关闭hdfs服务。只有做了HA的集群才可以滚动升级。如果在新的版本中有新的功能,并且这个功能不能在旧版本中使用,这种情况请遵循以下步骤:1. 关闭新功能2. 升级集群3. 开启新功能ps:Rol

2020-06-04 17:52:21 425

原创 重启电脑后,虚拟机不能ping通网关

首先,确保配置没有问题:1.虚拟机设置的是静态ip;2.本地电脑VMnet8,也设置了固定ip配置虚拟机教程:https://blog.csdn.net/qq_41587243/article/details/93725380在确保配置没有问题的前提下,有以下几种可能性:1.打开任务管理器,看VMware NAT service是否启动;2.服务中的VMware ...

2020-05-07 15:25:10 551

原创 创建线程thread、runable、callable、ExecutorService 的四种方式

创建线程的三种方式1.继承Thread类2.实现Runnable类3.实现Callable类具体如下:一、继承Thread类继承Thread类创建线程的步骤为:(1)创建一个类继承Thread类,重写run()方法,将所要完成的任务代码写进run()方法中;(2)创建Thread类的子类的对象;(3)调用该对象的start()方法,该start()方法表示先开启线程,然后调用ru...

2020-05-06 16:56:39 565

转载 Java线程池的四种实现方法及实现原理及分析。

在阅读了《Android开发进阶,从小工到专家》的3.2.4.0~3.2.2.0 内容后启发很大,所以写了一篇博客总结一下关于线程池的部分内容。0.首先什么是线程池?线程池就是创建多个线程并且进行管理的容器。(线程池是个容器,可以创建线程和管理线程,并且给线程分配任务)1.为什么要用线程池呢?我们都知道,在Java中创建一个线程其实是一个很简单的事情,只要new Thread就可...

2020-04-24 20:44:13 492

原创 SpringBoot 报错 start ServletWebServerApplicationContext due to missing ServletWebServerFactory bean

前两天的项目,没上传到git上,今天又继续码代码,出现了奇怪的问题。两天代码没动怎么会出现这样的问题,很是郁闷。。。。。。。。。。。。。。。。。。问题:启动项目的时候org.springframework.context.ApplicationContextException: Unable to start web server; nested exception is org.sprin...

2020-04-23 11:47:06 1641

原创 mysql中information_schema.columns字段说明

MySQL版本大于5.0时,有个默认数据库information_schema,里面存放着所有数据库的信息(比如表名、 列名、对应权限等),通过这个数据库,我们就可以跨库查询,爆表爆列。1. 获取所有列信息(COLUMNS)SELECT * FROM information_schema.COLUMNS WHERE TABLE_SCHEMA=‘数据库名’; COLUMNS表:提供了关于...

2020-04-03 15:12:22 4344

原创 redis默认配置文件redis.conf的详细配置

# Redis配置文件样例# Note on units: when memory size is needed, it is possible to specifiy# it in the usual form of 1k 5GB 4M and so forth:## 1k => 1000 bytes# 1kb => 1024 bytes# 1m => 1000...

2020-01-08 10:30:35 1210

原创 redis分布式集群搭建(详细)

首先,先说下redis单机版的搭建过程1.下载redis的安装包,然后解压,我这里下载的是 redis-5.0.7.tar.gz;2.进入到解压缩后的redis文件目录(此时可以看到Makefile文件),用编译安装redis源文件; make PREFIX=/usr/local/redis install 此时,编译完成。3.然后目录下回出现一个bin文件夹,4.进...

2020-01-08 10:15:42 2061

原创 Server returns invalid timezone. Go to 'Advanced' tab and set 'serverTimezone' property manually.

IDEA关联mysql的错误提示报错问题:Server returns invalid timezone. Go to 'Advanced' tab and set 'serverTimezone' property manually.时区错误,MySQL默认的时区是UTC时区,比北京时间晚8个小时。所以要修改mysql的时长在mysql的命令模式下,输入:set glob...

2019-11-27 16:04:02 130

原创 服务上搭建本地仓库【centos、ubuntu、kylin系统(中标麒麟、银河麒麟)】

1、centos/mips64el(中标麒麟中redhat)上配置本地源在/etc/yum.repos.d这个目录下建立*.repo文件格式:建立centos.repo[centos]name=centosbaseurl=file:///home/casic/mirror/X86/CentOS6enabled=1gpgcheck=0清理之前的源 yum clean a...

2019-11-01 15:00:18 3167

原创 ubuntu16.04 的国内更新源

在vim /etc/apt/source.list中修改配置源:配置好源之后apt update 更新一下源清华大学# 默认注释了源码镜像以提高 apt update 速度,如有需要可自行取消注释deb https://mirrors.tuna.tsinghua.edu.cn/ubuntu/ xenial main restricted universe multiverse# d...

2019-11-01 14:42:12 246

原创 java.security.AccessControlException: access denied ("java.lang.RuntimePermission" "createClassLoad“

elasticsearch异常提示:es@master:/home/elasticsearch/bin$ java.security.policy: error adding Entry: java.net.MalformedURLException: no protocol: ${codebase.netty-common}java.security.policy: err...

2019-08-15 11:09:28 4698

原创 ubuntu配置VNC远程连接服务器图形界面

简单介绍下,VNC(Virtual Network Computing)服务是一款优秀的屏幕分享及远程连接服务,基于RFB协议,使用C/S架构。此服务可保证你连接图形界面。首先,我们需要搭建VNC服务器:1. 安装xfce和TightVNCsudo apt install xfce4 xfce4-goodies tightvncserver其中,这个xfce4是windows远程连...

2019-07-18 18:50:48 1489 1

原创 VMWare VMNet 8 的配置使用

网上有很多讲解VMWare网络原理的文章,我在这里就不在赘述,有兴趣的朋友可以自己搜本章主要介绍下我们使用VM最常用的两种网络模式,VMNet 0和VMNet 8本文均为原创,如需转载请标明,谢谢当我们安装VMware Workstation后,在宿主机(物理电脑)上会多出两个网卡,VMNet1、VMNet8,在虚拟机设置里会多出一个配置VMNet0。如下图...

2019-06-26 11:53:07 805

原创 /dev/mapper/cl-root 100%满了

问题展示:文件系统 容量 已用 可用 已用% 挂载点/dev/mapper/cl-root 50G 50G 0 100% /devtmpfs 32G 0 32G 0% /devtmpfs 32G 0 32G 0% /dev/shmtmpfs ...

2019-06-05 09:53:43 13140 2

原创 Exception in thread "main" java.lang.NoSuchMethodError: org.apache.spark.mllib.classification.Logist

在编写spark机器学习算法中的逻辑回归时,遇到此问题,进而进行总结一下,望指点! ! !问题如下:Exception in thread "main" java.lang.NoSuchMethodError: org.apache.spark.mllib.classification.LogisticRegressionWithLBFGS.run(Lorg/apache/spark/rd...

2019-03-18 10:55:12 598

原创 Scala IDE 中错误:JAR creation failed. See details for additional information.

编写的spark程序在打包的过程中出现这个错误。JAR creation failed. See details for additional information. Class files on classpath not found or not accessible for: 'eml/src/cn/han/spark/mllib/logistic/LogisticModel.sc...

2019-03-13 11:36:52 1000

原创 决策树分类算法三种方式

一、分类的基本介绍  物以类聚,人以群分,分类问题只古以来就出现我们的生活中。分类是数据挖掘中一个重要的分支,在各方面都有着广泛的应用,如医学疾病判别、垃圾邮件过滤、垃圾短信拦截、客户分析等等。分类问题可以分为两类:  归类:归类是指对离散数据的分类,比如对根据一个人的笔迹判别这个是男还是女,这里的类别只有两个,类别是离散的集合空间{男,女}的。   预测:预测是指对连续数据的分类,比如...

2019-03-07 17:25:12 34913 2

转载 TFIDF分词过滤,提取关键词

任务一:现在有一篇长文《中国的蜜蜂养殖》,用计算机提取它的关键词。1、词频:如果某个词很重要,它应该在这篇文章中多次出现。我们进行"词频"(Term Frequency,缩写为TF)统计。2、停用词:结果你肯定猜到了,出现次数最多的词是----"的"、"是"、"在"----这一类最常用的词。它们叫做"停用词"(stop words),表示对找到结果毫无帮助、必须过滤掉的词。 规则一...

2019-02-20 15:28:15 4033

转载 决策树系列——CART

CART,又名分类回归树,是在ID3的基础上进行优化的决策树,学习CART记住以下几个关键点:(1)CART既能是分类树,又能是分类树;(2)当CART是分类树时,采用GINI值作为节点分裂的依据;当CART是回归树时,采用样本的最小方差作为节点分裂的依据;(3)CART是一棵二叉树。接下来将以一个实际的例子对CART进行介绍:                         ...

2019-02-20 11:27:26 846

转载 【Tensorflow】 写给初学者的深度学习教程之 MNIST 数字识别

 一般而言,MNIST 数据集测试就是机器学习和深度学习当中的"Hello World"工程,几乎是所有的教程都会把它放在最开始的地方.这是因为,这个简单的工程包含了大致的机器学习流程,通过练习这个工程有助于读者加深理解机器学习或者是深度学习的大致流程.但恰恰有那么一部分同学,由于初入深度学习这个领域,脑海中还没有清晰的概念,所以即使是 MNIST 数字识别这样简单的例子,我觉得也应该有人...

2019-02-20 10:34:26 175

转载 遇到报错:ERROR spark.SparkContext: Error initializing SparkContext

java.lang.IllegalArgumentException: System memory 100663296 must be at least 4.718592E8. Please use a larger heap size.在Eclipse里开发Spark项目,尝试直接在spark里运行程序的时候,遇到下面这个报错: 很明显,这是JVM申请的memory不够导致无法启动S...

2019-01-03 15:38:56 5841

原创 oozie启动后自动挂掉及解决办法

最近在公司的申威服务器上部署机器学习平台,部署过程中也遇到好多问题,本章主要讲oozie出现的问题。直奔主题!!!!!oozie启动后,过一段时间自动挂掉,界面也可以访问到,不知道何原因,只能去看log日志了,日志没有报错信息,很纠结,不知道如何解决,于是重启oozie,日志出现问题,遇到oozie_pid已存在,原来是在启动oozie时已经产生pid文件了,可这并不是问题。启动后过段...

2018-11-08 16:50:52 997

原创 sqoop的常用导入导出命令

列出所有库sqoop list-databases --connect jdbc:mysql://mysql:3306/ --username root --password 111111****************************************************************************************************...

2018-11-08 16:23:34 361

转载 MySQL批量SQL插入性能优化

 对于一些数据量较大的系统,数据库面临的问题除了查询效率低下,还有就是数据入库时间长。特别像报表系统,可能每天花费在数据导入上的时间就会长达几个小时之久。因此,优化数据库插入性能是很有意义的。       网络上的牛人很多,总会有一些手段可以提高insert效率,大家跟我一起分享一下吧:       1. 一条SQL语句插入多条数据。       我们常用的插入语句大都是一条一个inse...

2018-10-22 11:26:53 122

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除