自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(253)
  • 资源 (15)
  • 收藏
  • 关注

原创 Hive 配置自定义UDF

hiveCli临时配置只起作用去当前sessionhive登录,设置流程添加到hive环境:hive (tmp)> add jar /home/app/Stringlen.jar;使用自定义udf:hive (tmp)> select str_len(zzz.udecrypt_idno) from zzz;hive-site.xml配置配置hive附加jar包目录 <property> <name>hive.aux.jars.pa

2021-05-27 16:08:46 375

原创 spring 继承 swagger2配置

依赖配置pom.xml配置<dependency> <groupId>io.springfox</groupId> <artifactId>springfox-swagger2</artifactId> <version>2.6.1</version></dependency><dependency> <groupId>io.springfox&

2021-05-27 16:00:27 338

原创 Hive metastor HA配置

前言为应对生成环境hive服务可用性,需要对hive metastore服务进行backup,则其中一个metastore无法进行对外服务,backup及时转正,对发送请求进行处理图解单点故障HA 架构HA 配置依赖服务hdfs,zookeeper,hive参数配置hive-site.xml配置:<!-- 配置多个metastore服务,逗号分隔 --><property> <name>hive.metastore.uri

2021-05-27 15:49:56 467

原创 hive 条件判断函数

1. if 函数同case,nvl,都是处理单个列值的查询结果语法: if(boolean testCondition, T valueTrue, T valueFalseOrNull)当条件testCondition为True,返回valueTrue;否则返回valueFalseOrNull例子:-- if 语句语法,请为 Null 的设置为 0SELECT if(var IS NULL, 0 ,var) AS var_name-- 满足一定条件的总数,Null count()

2021-05-27 15:21:08 1286

原创 spark 2.x使用 udf

spark SQL代码如下package com.wacai.blogimport org.apache.spark.sql.{DataFrame, SparkSession}object SparkUDF { def isAdult(age:Int):Boolean ={ if(age>18){ true }else{ false } } /** * spark sql的udfs用法 * <1> 匿名注册 s

2021-05-17 23:29:49 230

原创 maven无法引入依赖

这里写自定义目录标题问题原因问题正常开发时,会引入一些自定义、开发的jar包,但是会存在maven无法引入的情况原因私服无该依赖 若对应的坐标确实不存在与私服,重新上传查看idea是否处于offline mode删除本地仓库该依赖目录,重新reimport本地安装该依赖 mvn install:install-file -Dfile=jar位置 -DgroupId=组ID -DartifactId=应用ID -Dversion=依赖版本 -Dpackaging=

2021-05-10 18:53:48 684

原创 arthas跟踪代码-线上环境

1.下载arthas全量包wget https://maven.aliyun.com/repository/public/com/taobao/arthas/arthas-packaging/3.1.1/arthas-packaging-3.1.1-bin.zip2.上传至生产环境,解压环境不同不再赘述3.查看对应java/springboot服务的进程PIDps -ef | grep -v grep | grep 进程名称4.对上传的arthas解压,...

2021-04-25 10:48:30 1417

原创 spark on yarn 作业执行流程

spark application会有几个job,取决于调用了几次DAGScheduler.如果是spark SQL则取决相应的实现,会存在job group 的情况(多个job)RDD一般是一个action有一个job,如果take,sample。另外checkpoint也触发一个job.Spark client模式下,所有的jar和资源都是和driver在一起,不会出现jar丢失的情况,spark可以从hdfs上读取spark cluster模式下,会出现无法找到jar...

2021-03-30 15:21:08 802

原创 spark启动报错 java.lang.NoSuchMethodError: scala.Predef$.refArrayOps([Ljava/lang/Object;)

原因:细微版本差别时,如果scala版本跟spark自带的或引入的scala-lang版本不一致,会报上述错误解决:检查scala-sdk与scala-lang的版本是否同属于同一个小版本,若否,则修改为一致即可,以下方式根据自身情况二选一。...

2021-03-29 17:58:23 937

原创 Redis分布式锁实现

一 前言1.在多进程服务的情况下,无法通过共享锁或者synchronized关键字来实现对共享资源的访问,所以需要引入分布式锁,解决多个服务同步访问共享资源的问题。二 分布式锁要解决两个问题:a.线程在获取锁时,具有对资源的独占权利,并且设置超时时间,以免自身线程崩溃或占用过长,导致其他线程无法获取资源的问题b.线程需要在获取锁后,对资源进行独占,进行业务处理后,未达到超时时间时,需要对锁资源及时释放。但是要注意,如果占锁线程执行时间过长,导致锁超时时间用完后,需要判断是否仍是自己获取.

2021-03-22 15:31:12 245

原创 Jmeter压力测试

jmeter安装jdk 1.8+ 安装(略)Jmeter 安装下载http://jmeter.apache.org/download_jmeter.cgi解压tar xzvf jmeter-xxx.tgz配置、生效环境配置: vim .bash_profile#jmeterexport JMETER_HOME=/usr/local/jmeterexport PATH=$PATH:${JMETER_HOME}/bin生效:source .bash_profile

2021-02-24 14:50:31 310

原创 Maven 依赖管理

1.现象:依赖无法正确引入,排除4:12 PM Unable to import maven project: See logs for details2.定位:查看 idea --> Help ---> Show Log in Find ( Show Log in Explore)查看相应的日志错误信息:2020-12-17 16:16:41,025 [7245531] ERROR - #org.jetbrains.idea.maven - com.goog.

2020-12-17 16:38:25 223

原创 hadoop 垃圾箱

1.Hdfs开启垃圾箱(默认设置为0不开启):<property><name>fs.trash.interval</name><value>1440</value><description>Numberofminutesbetweentrashcheckpoints.Ifzero,thetrashfeatureisdisabled.</...

2020-11-26 19:41:53 551

原创 Hive 开窗函数-cume_dist()

题目: 获取每个班级中,以数学成绩排序,取倒数20%的学生信息select studentId,math,departmentId,classId,avg(voice_score)from ( select studentId,math,departmentId,classId,cume_dist() over(partition by classId order by math) as percent_part) tmpwhere tmp.percent_part &...

2020-11-12 15:08:00 1060

原创 linux根据端口好查看进程名称

一 、 前言在linux定位服务启动时,需要知道对应端口是启动(标识服务正常启动或运行),或者不知道某个服务的域名,无法确定属哪个服务,故需要定位其属于哪个进程名称二.定位常见服务有tcp,http服务,故根据lsof 或netstat进行搜索后,确定其属于哪类服务,进而进行搜索1.lsof/netstat定位lsof -i:80812.根据服务类型进行定位netstat -tnlp | grep 80813.根据上面查询端口好,搜索到进程名称...

2020-10-31 17:32:54 593

原创 Hadoop空闲时无法提交任务

一、问题描述在用hive提交MR任务时,发现在队列空闲时,提交的application无法能够进入RUNNING,一直处于ACCEPTED。查看日志发现在6.8号也在报相同错误(如下)2020-06-08 08:10:36,714 INFO org.apache.hadoop.yarn.server.resourcemanager.RMAppManager$ApplicationSummary: appId=application_1573631365527_158284,name=select c

2020-10-29 17:43:14 876

原创 linux 查看修改swap空间

1.查看swap空间下面Swap一行即是,一共11G,占用4.4,空闲7.5# free -h total used free shared buffers cachedMem: 252G 246G 5.8G 426M 105M 134G-/+ buffers/cache: 111G 140GSw...

2020-10-29 16:55:04 836

原创 linux查看端口占用

1.查看端口是否占用lsof -i:端口号2.查看端口占用的进程(根据上面获取的进程号)netstat -nutlp | grep 进程号

2020-10-29 10:31:00 246

原创 linux find 查找文件

1.根据名称查找某个目录下的文件/目录例子:查找根目录下的文件名字为a.txtfind / -name a.txt2.根据名称查找某个目录下类型为文件的a.txt [ -type f(文件)d(目录) ]find / -name a.txt -type f3.查找某目录下大小为在某个范围的文件例子:查找hive目录下 文件大小为100M至400M的文件find hive -type f -mtime -1 -size +100M-size...

2020-10-28 18:50:30 212 1

原创 Unable to import maven project: See logs for details

idea maven项目无法导入依赖,根据日志提示,查看日志可以看到时根据maven版本有关系,尝试调整为idea自带版本,即通过。日志查看方式:mac系统 : Help --> Show Log in Finderwindows系统: Help --> Show Log in Explorer日志内容:020-08-17 14:49:22,829 [1737801] ERROR - #org.jetbrains.idea.maven - com.googl...

2020-08-17 15:01:59 418

原创 scala 错误: 找不到或无法加载主类 com.xxx.cn.App

原因:Idea scala 项目初始化未成功,未将项目src mark成 source folder,解决:File --> Project Structure --> Modules将main Mark as Source同理:如果资源文件,Java类无法加载,也需要检查是否因为时项目未初始化成功而导致无法加载...

2020-08-17 14:18:57 1381 2

原创 Hiveserver2 thrift 添加 自定义权限认证

1.hive 配置配置hive-site.xml<property> <name>hive.server2.authentication</name> <value>CUSTOM</value> </property> <property> <name>hive.server2.custom.authenticatio

2020-08-04 11:32:21 829

原创 linux expr 算术运算

linux shell 算术运算{expr、bc、dc、(( ))和[ ]}查看如下链接https://blog.csdn.net/whatday/article/details/90416243

2020-07-30 15:31:38 434

原创 Docker 容器镜像操作

Docker1.登录 Docker 私有仓库docker login http://xxxxx.com2.根据DockerFile构建镜像, “:”前为镜像名,后为tagdocker build -t oneid/python:v1.1 .3.推送镜像到远程docker push xxxxx.com/abc-dev/arc:1334  4.拉取远程镜像到本地 镜像仓库地址/镜像名称:tagdocker pull http://xxxxx.com/cdp-o...

2020-05-13 17:40:27 236

原创 机器学习之SVM

目录SVM简介线性SVM算法原理非线性SVM算法原理SVM简介支持向量机(support vector machines, SVM)是一种二分类模型,它的基本模型是定义在特征空间上的间隔最大的线性分类器,间隔最大使它有别于感知机;SVM还包括核技巧,这使它成为实质上的非线性分类器。SVM的的学习策略就是间隔最大化,可形式化为一个求解凸二次规划的问题,也等价于正则化的合页损...

2020-05-03 23:21:34 1086

原创 机器学习之初识PCA

一 定义及用途定义:即主成分分析方法,无监督学习方法,是一种使用最广泛的数据降维算法。用途:用于特征降维,通过分析主成分先显出最大的个别差异,发现更便于人类理解的特征;也可以用来削减回归分析和聚类分析中变量的树木二 出现原因在很多场景中对多变量数据进行观测,在一定程度增加数据采集工作量。更重要的是:多变量之间可能存在相关性,从而增加问题分析的复杂性如果对每个指标(特征)单...

2020-04-25 23:07:16 287

原创 机器学习之决策树简析

模型训练算法介绍机器学习致力于研究如何通过计算的手段,利用经验来改善系统自身的性能,在计算机系统中,"经验"通常以"数据"形式存 在,因此机器学习所研究的主要内容是关于在计算机上从数据中产生"模型" (model) 的算法,即"学习算法" (learning algorithm). 有了学习算法,我们把经验数据提供给它,它就能基于这些数据产生模型;在面对新的情况时(例如看到一个没剖开的西...

2020-04-19 22:43:33 465

原创 机器学习之深入逻辑回归

逻辑回归为什么需要逻辑回归线性回归是不能解决分类问题的。线性回归实际上做了三个假设1.因变量Yi和自变量Xi之间呈线性相关2.自变量Xi与干扰项相互独立3.没被线性模型捕捉到的随机因素服务正态分布理论上来说,任何数据放在模型里面都会得到相应的参数估计,进而通过模型对数据进行预测。但是这并一定能保证模型效果,有时会得到”错且无用”的模型,因此建模的过程中需要不断提出假设和检验假设什...

2020-04-12 23:07:39 276

原创 sklearn之线性回归和多项式回归

涉及内容多项式回归多项式的sklearn实现偏差和方差增加算法模型泛化能力的正则化处理多项式回归研究一个因变量与一个或多个自变量(特征)间多项式的回归分析,成为多项式回归(Ploynomial Regression).其为线性回归模型,其回归函数关于回归系数是线性的,自变量x和因变量y之间的关系被建模为n次多项式当自变量只有一个时,成为一元多项式回归;如果自变量(特征)为...

2020-04-05 23:46:16 1863

原创 解决python安装库较慢的方式

将下载的镜像源地址指向国内的地址:清华:https://pypi.tuna.tsinghua.edu.cn/simple阿里云:http://mirrors.aliyun.com/pypi/simple/中国科技大学 https://pypi.mirrors.ustc.edu.cn/simple/华中理工大学:http://pypi.hustunique.com/山东理工大学:http:...

2020-04-05 22:45:08 252

原创 梯度算法之初见

本文涉及内容什么是梯度为什么需要梯度下降算法如何理解梯度算法数学推导梯度算法的缺点什么是梯度简单来说,多元函数的导数(derivative)就是梯度(gradient),因为导数标识函数的变化趋势(递增或递减,震荡),分别对每个变量进行微分,然后用逗号隔开,梯度是用括号包括起来,说明梯度实质是一个向量,我们说的损失函数Loss Function的梯度为:导数就是函数变...

2020-03-29 14:16:15 1000

原创 线程池同步异步调用callable和Future

线程池同步、异步调用Callable,Future涉及内容案例分析,用Future获取线程池执行结果原理分析:Future实现原理使用Future来获取线程池执行代码 package com.myd.cn.ThreadLocal; import java.util.ArrayList; import java.util.List; import java.util.Rand...

2020-03-28 23:14:44 1131

原创 线程池excute方法执行底层过程

线程池执行过程调用execute(task)方法底层执行步骤1.首先检查线程池的运行状态和工作线程数量,如果工作线程总数(从ctl变量中获取线程并统计)少于核心线程数,则会创建一个新的线程来执行给的的任务,通过调用addWorker来执行任务.2.如果线程处于运行状态且工作队列能够入队新的任务,则使用double-check机制再次判断是否处于运行状态及是否能够出队任务,如果不成立,...

2020-03-28 11:20:00 769

原创 线程池原理及应用之个人心得

线程池的创建和常用参数分析创建方式,利用Executors创建固定、单个、缓存数量线程的线程池 package com.myd.cn.ThreadPool; import java.util.concurrent.ArrayBlockingQueue; import java.util.concurrent.BlockingDeque; import java.util.concurr...

2020-03-27 14:26:52 196

原创 ThreadLocal应用场景分析

ThreadLocal为解决多线程并发问题提供一种新思路。ThreadLocal并不是一个Thread,而是Thread局部变量ThreadLocal作用解决多线程环境下整个上下文调用需要将关键参数透传如果不使用ThreadLocal,每个方法都要加关键参数,如果内部方法链路过长,那么代码看起来冗余、臃肿如果某处传时将参数值改掉或设置为null,后续调用方法中用到这个参数的代码会受...

2020-03-27 00:06:23 182

原创 小议创建线程的若干方式

创建线程的几种方式通过实现Runnable接口的run方法1.继承Runnable接口,重写run方法2.实例化实现后Runnable子类,调用run方法3.例子 package com.myd.cn.createThreadWay;public class RunnableWay { /** *1.实现Runnable的子类 * @author dymll *...

2020-03-26 22:21:41 159

原创 java内存模型及线程案例分析

java 内存模型学习目的了解更深层次内存的使用和读取实现,方便日后分析多线程内存相关问题工作中遇到的并发问题,并不好复现,需要对理论知识掌握得足够深刻,才能更好分析操作系统内存模型现代CPU都存在多级缓存,用来缓存CPU经常使用的数据,提供数据的读写、处理速度,分为L1(高速缓存,保存极为常用的数据,容量小),L2(高速缓存,缓存经常使用的数据),Shared L3 Cache(...

2020-03-25 23:48:38 169

原创 Python清洗常用工具

脏数据存在的几种问题- 1.数据缺失(Incomplete):属性值为空的情况.如Occupancy=” ”- 2.数据噪音(Noisy):数据值不合常理的情况。如Wage = -100- 3.数据不一致(Inconsistent):数据前后存在矛盾。如age=”042”或Birthday=“01/09/2015”- 4.数据冗余(Redundant):数据量或属性数目超出数据分析需要的情...

2020-03-25 00:09:22 405

原创 java线程相关概念之解析

线程安全一个类被多个线程以任意方式同时调用,且不需要外部额外同步和协同的情况下,仍然保持内部数据正确且表现正确的行为,那么这个类就是线程安全的线程安全分五个等级1.不可变1.Final修饰不可变的类,如String,Integer2.枚举类,enum,可反编译查看(使用javac编译后,在使用jad查看class文件为final修饰的 2.命令: a.编译-> javac T...

2020-03-24 22:46:20 191

原创 如何快速定位JVM相关GC问题

1.涉及问题如何使用jstat 命令查看jvm的GC情况面对海量GC日志,如何快速抓住问题根源- 如何使用日志分析工具对代码优化、扩容、参数调优、内存估算,都需要一些支撑信息加以判断GC 日志输出GC版本差异java版本更新速度很快,jvm参数配置变化较大,如java9几乎是推翻重来。追踪、定位GC日志之前需确认java版本- 事故出现时间不定,需要保留事故出现现场,可通过设置...

2020-03-23 11:32:27 2109

elasticsearch-5.6.11.tar.gz

Elasticsearch:,用于全文检索,站内搜索,价格监控,数据监控等,支持近实时响应

2019-08-02

Flume 根据字段进行路由插入 ES

基于Flume-1.8.0,ES-5.6.11 , 根据某个字段创建 type ,进行路由批量插入 ES,使用redis 缓存已从MySQL 查出的转换数据

2019-04-26

推荐系统手册(英文版)

推荐系统权威之作,深入介绍推荐系统经典算法,推荐指标评估,推荐戏台测试方法

2017-10-17

spring-mybatisjar包

spring-mybatisjar包

2016-12-07

Maven私服Nexus

Maven私服-nexus

2016-12-07

sql server 2005 驱动

sql server 2005 驱动,用于java代码与数据库的连接

2013-09-12

高可用mysql

介绍mysql高可用架构原理,搭建,优化,问题诊断,真正理解mysql高可用架构

2017-10-17

java思想篇

关于java的核心基础知识,给以细致独到的讲解,笔者为资深行业专家。

2013-05-09

JXL-API文档

JXL操作EXCEL文件,对其进行读入,写出操作

2016-12-27

EditPlus绿色汉化版(无须破解)

EditPlus绿色汉化版(无须破解,无付费提示)

2014-03-07

JDBC连接Oralce数据库驱动

JDBC方式连接Oracle数据库的驱动,其中OJDBC5,OJDBC6时两个版本,classes12为单独版本,JDBC连接时需要把任意一个OJDBC版本和classes12一起加到Eclipse或MyEclipse中,否则无法运行。加入后选中工程,右键——〉Add build path正式加载到工程中。

2014-03-07

验证码工程源码

在一个系统或项目中,登录时,验证码是不必可少,一来可以为安全登录多了一层保障,二则防止网络的攻击。验证码的生成有多种,有JS实现,也有框架自带,也有用开发语言实现,例如Java。以下介绍下java实现验证码的原理及过程。

2016-11-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除