自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

maoyuanming0806的博客

good good study! day day up!

原创 设计模式与应用:组合模式

详细介绍设计模式之组合模式通过递归手段来构造树形的对象结构,并可通过一个对象来访问整个对象树ComponentCompositeLeaf测试输出

2022-06-29 20:57:24 108

原创 设计模式与应用:中介者模式

在中介者模式中,类之间的交互行为被统一放在Mediator的对象中,对象通过Mediator对象同其他对象交互,Mediator对象起着控制器的作用MediatorPartnerMediatorColleagueConcreteColleagueClient 测试输出...

2022-06-29 20:25:15 17

原创 设计模式与应用:原型模式

原型模式介绍采取复制原型对象的方法来创建对象的实例使用Prototype模式创建的实例,具有与原型一样的数据特点根据介绍可知,原型模式的实现就是在原型类里实现一个clone()方法,当然Java类都继承了Object,都自动有Object的clone()方法,这是一个浅拷贝的方法。如果需要深度拷贝,可以自行重写clone方法,或者使用其他工具类看Object或具体拷贝方法即可...

2022-06-29 17:00:14 74

原创 设计模式与应用:桥接模式

桥接模式介绍与实现基于类的最小设计原则,通过使用封装,聚合以及继承等行为来让不同的类承担不同的责任,他的主要特点:ImplementorConcreteImplementorAbstractionRefined AbstractionClient输出...

2022-06-29 16:09:16 17

原创 设计模式与应用:命令模式

命令模式介绍与实践在面向对象的程序设计过程中,一个对象调用另一个对象,一般情况下的调用过程:创建目标对象实例,设置调用参数,调用目标对象方法但在有些情况下,有必要使用一个专门的类对这种调用过程加以封装,我们把这种专门的类叫做Command类ReceiverCommandInvoker测试小结此模式实际应用场景广泛,开发过程中或多或少都会使用到,只是不知觉是类似命令模式...

2022-06-29 15:20:43 40

原创 设计模式与应用:解释器模式

介绍解释器模式简单说,Interpreter模式是一种简单的语法解释器结构当有一个语言需要解释执行,并且你可将该语言中的句子表示为以恶搞抽象语法树时,可以使用解释器模式,而当存在以下情况时该模式效果最好:解释器模式在实际业务开发场景比较少[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-9tM4SV80-1656483254392)(./img/interpreter-1.png)]代码UML[外链图...

2022-06-29 14:15:33 73

原创 设计模式与应用:访问者模式

介绍和实现访问者模式一个实体,不同的访问者有不同的行为操作,而且访问者的种类也可能需要根据时间推移而变化(行为可扩展)[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-87MqGlKV-1656475245253)(./img/visitor-1.png)][外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-1FcLckuH-1656475245253)(./img/visitor-2.png)]这里以公园(元素)和清洁工(访问者)的关系来描述这个模式

2022-06-29 12:01:35 51

原创 设计模式与应用:迭代器模式

介绍迭代器模式迭代模式解决什么问题?或者说如果不使用迭代模式会存在什么问题由容器自己实现顺序遍历:容器类里直接添加顺序遍历方法让调用者自己实现遍历Iterator模式功能:就是为了有效处理按顺序进行遍历访问的一种设计模式,可以屏蔽对象集合的容器类的实现细节这里可以去看JDK的代码如下几个类就是迭代器模式的实现...

2022-06-28 21:02:33 66

原创 设计模式与应用:备忘录模式

java设计模式之备忘录模式介绍及其代码实现作用:保存对象的内部状态,并在需要的时候(undo、rollback)恢复对象以前的状态如果一个对象需要保存状态并想通过undo或roback等操作,恢复到以前的状态时可以使用具体使用应用注意...

2022-06-28 20:07:05 562

原创 Spark:基于PySpark的逻辑回归和决策树模型对泰旦尼克号幸存者预测的机器学习流程

基于PySpark,使用spark的MLLib部分机器学习包,SparkML,对Kaggle入门初级案例:泰坦尼克号幸存者预测的案例,从数据分析,数据清洗,数据整理,特征工程,特征向量化等完整流程示例,最后基于SparkML包中的逻辑回归和决策树模型进行了模型构建和预测测试

2022-02-13 21:21:26 1994

原创 Spark:基于PySpark的DataFrame、SQL、TableAPI操作

基于PySpark的常用DataFrame操作、SQL演示、TableAPI操作。包括官方文档附件和如何在JupterNoteBook上测试PySpark

2022-02-11 23:51:45 663

原创 Spark:PySpark的RDD算子操作-基于JupyterNotebook

完整的Spark算子操作演示,基于PySpark,整合Jupyternotebook演示,每个算子调用方式,参数列表、行动算子或变换算子说明,功能说明,演示代码,输出结果一应俱全,方便查验

2022-02-11 20:01:59 626

原创 Spark:JupyterNotebook整合PySpark开发环境

详细介绍windows和linux环境安装部署Spark开发环境;详细演示jupyternotebook整合pyspark,方便在notebook上开发测试pyspark,完整演示流程

2022-02-11 18:33:08 1753

原创 服务端架构:Mybatis-Plus的优缺点

前段时间帮朋友处理java后端架构问题,看到了mybatis-plus,其实早几年就知道这个东西,但一直没用没学,这两天许久未见的web服务看了看,聊聊个人感受如有不适,请见谅文章目录优点缺点1.对数据访问层DAO的上层入侵太强,入侵到service、甚至controller!2.数据查询代码复杂,最终SQL黑盒,不清晰,不利于业务性优化,不利于排查问题优点本文没有优点介绍,若要看到优点,自己去官方文档看吧,全是优点,明明白白缺点两大缺点足以限制其在大规模服务中使用:入侵Service和Co.

2022-01-15 15:46:18 4201 12

原创 AI基础:线性回归及其最小二乘法和梯度下降法详细推导与代码示例

线性回归:Liner Regression主要是回忆一下最小二乘和梯度下降文章目录什么是线性回归线性回归能做什么线性回归一般表达式如何计算(学习)参数w,b求解损失函数最小化L时w和b值的方法:最小二乘法代码实现求解损失函数最小化L时w和b值的方法:梯度下降法代码实现多项式的回归代码实现过拟合、欠拟合、正则化什么是线性回归线性:两个变量之间的关系是一次函数关系的图象是直线,叫做线性。非线性:两个变量之间的关系不是一次函数关系的图象不是直线,叫做非线性。回归:人们在测量事物的时候因为客观条件.

2022-01-09 23:51:00 490

原创 Flink:从业务实践角度聊聊Checkpoint、Savepoint、容错机制和业务升级

接着状态缓存和内存管理后,再聊聊容错机制上文:Flink:从业务实践角度聊聊状态缓存和内存管理多说一句,说实话个人之前研究这部分内容时,有时也会百度,但是很烦的就是,不知道是搜索引擎问题还是大家都喜欢粘贴复制,,,,粘贴复制也就算了,标题好歹统一下吧,可是可是,明明就是找别人的文章粘贴复制的或者直接官网文档粘贴复制,甚至连格式错别字都不管不顾,,,标题好像很牛皮,点进去,文档内容一样,再点下一个,内容一样,再点,还一样,,,搜出来的前几页的,文章标题有点区别,但是居然内容一摸一样,都是官方文档的内容,.

2022-01-06 17:48:08 1354 9

原创 Flink:从业务实践角度聊聊状态缓存和内存管理

本文就是记录些实践结论,不会做深入原理和源码级说明,因为这些,不如去看源码和官方文档,至少官方文档介绍的非常详细,比某些博文缺胳膊少腿、粘贴复制强多了,据我所知,市场上很多关于Flink的参考书大多直接翻译的官方文档官方文档链接附上:https://www.bookstack.cn/read/flink-1.11.1-zh/collapse-2如上是中文翻译版的文档,也有英文版选择和不同版本选择,自行选用本文基于Flink V1.11文章目录Flink状态缓存StateFlink状态缓存Flin.

2022-01-05 15:57:21 1141

原创 Linux虚拟机磁盘扩容CentOS

测试个东西,发现虚拟机磁盘不够用了,,,,找了半天扩容方法,都是东拼西凑的没个有用的,最后终于找到个完美扩容的,记录下,防止原文以后看不了原文:https://www.linuxidc.com/Linux/2019-04/158346.htm文章目录环境扩容环境Centos7VM16扩容VM软件上扩展磁盘先关机,然后如下图操作1111扩展好后,接下来进入系统操作,开机查看扩展后磁盘情况[root@mini1 ~]# fdisk -l磁盘 /dev/sda:53.7 G.

2021-12-20 19:06:29 766 1

原创 Flink:调用JPMML机器学习模型

有个需求就是要使用数据分析团队实现好的模型,而且是python的,要求在Flink平台上跑起来提供实时调用模型处理数据文章目录背景JPMML介绍环境准备安装使用步骤示例:决策树分类Iris数据集训练模型并获得PMML文件JAVA工程调用PMML模型总结背景在Flink平台上通过调用现有python实现的模型,进行实时预测处理Flink V1.11Java 1.8Python3jpmmlJPMML介绍预言模型标记语言(Predictive Model Markup Language.

2021-12-17 22:26:41 3295 1

原创 AI基础:逻辑回归与梯度下降和基于逻辑回归的分类实践

文章目录逻辑回归原理什么是逻辑回归Sigmoid函数逻辑回归的损失函数损失函数变换过程:从极大似然估计理解逻辑回归的损失函数损失函数变换过程:从交叉熵的角度理解逻辑回归的损失函数逻辑回归损失函数求解逻辑斯特回归为什么要对特征进行离散化逻辑回归应用优缺点(特点)一般应用场景对于过拟合和欠拟合等优化方案基于逻辑回归的分类示例手动实现逻辑回归使用sklearn逻辑回归模型逻辑回归原理什么是逻辑回归注意,本文里的y_pred指的是y预测值逻辑回归是用来做分类算法的,大家都熟悉线性回归,一般形式是y_pr

2021-09-28 18:57:58 124

原创 AI基础:KNN与K近邻距离度量说明、利用KNN手写字体识别分类实践

KNN k近邻文章目录KNN算法K近邻中近邻的距离度量欧式距离标准化欧式距离曼哈顿距离汉明距离夹角余弦杰卡德相似系数皮尔逊系数切比雪夫距离闵可夫斯基距离马氏距离巴氏距离各种“距离”的应用场景距离函数之间的等价关系K近邻中K值的选择KNN最近邻分类算法的过程基于KNN的手写字体识别分类实践KNN算法何谓K近邻算法,即K-Nearest Neighbor algorithm,简称KNN算法,单从名字来猜想,可以简单粗暴的认为是:K个最近的邻居,当K=1时,算法便成了最近邻算法,即寻找最近的那个邻居。.

2021-09-23 15:23:02 387 1

原创 AI基础:朴素贝叶斯与垃圾邮件分类

来,继续回顾基础算法文章目录背景&贝叶斯原理贝叶斯分类器朴素贝叶斯分类器西瓜数据集下的朴素贝叶斯示例朴素贝叶斯分类的优缺点朴素贝叶斯关键问题朴素贝叶斯企业中的应用案例基于朴素贝叶斯的垃圾邮件分类背景&贝叶斯原理朴素贝叶斯基于的原理是贝叶斯原理。贝叶斯原理:通过相关概率已知的情况下利用误判损失来选择最优的类别分类。贝叶斯原理是英国数学家托马斯·贝叶斯提出的。贝叶斯是个很神奇的人,他的经历类似梵高。生前没有得到重视,死后,他写的一篇关于归纳推理的论文被朋友翻了出来,并发.

2021-09-22 17:50:57 279

原创 AI基础:决策树,基于ID3、C4.5、CART构建原理

决策树是很多算法模型的基础,回顾下什么是决策树如图,思考一下一个决策问题:是否去相亲,一个女孩的母亲要给这个女孩介绍对象。决策树相对于LR模型,简单清晰可解释性好很多,就是构造一课树,从根节点走到叶子节点就有答案了。决策树更像是编程语言中的if-else一样,去做条件判断。以上就是决策树的基本思想,那么如果有了一棵决策树,就相当于有了一个模型,接下来就是应用了。和其他模型一样,关注的还是决策树如何构造。决策树的生成决策树基于“树”结构进行决策的,这时我们就要面临两个问题 .

2021-09-09 18:22:47 157

原创 AI基础:信息熵、信息增益、信息增益率、基尼指数

给实习生聊到决策树、GBDT,有几个概念这里再用易懂的方式解释下文章目录信息熵条件熵信息增益信息增益率基尼指数信息熵是决策树的基础信息增益-ID3算法构建决策树信息增益率-C4.5算法构建决策树基尼指数-Cart算法构建决策树信息熵用另外一个词来说就是纯度,一个盒子里只有白球,说明这个盒子很纯,纯度很高。一个集合里只有一类样本,比如表示男女的样本集合U={男,男,…}都是男的,那么就说这个集合纯度很高。纯度相对于信息熵呢?首先熵,是热力学的概念,表示体系混乱度.

2021-09-08 17:53:45 344

原创 AI基础:链式法则、幂法则、广义幂法则

概念回顾文章目录幂法则链式法则(Chain Rule)示例链式法则的应用广义幂法则幂法则有时候也会叫次幂法则,仍然是函数求导的法则就是幂次函数的求导法则f(x)=x2的导数f(x)‘=(x2)‘=2xf\left(x\right)=x^2的导数f\left(x\right)^`=\left(x^2\right)^`=2xf(x)=x2的导数f(x)‘=(x2)‘=2x链式法则(Chain Rule)求复合函数导数的一个法则, 是微积分中最重要的法则之一两个函数组合起来的复合函.

2021-09-07 18:31:05 216

原创 maven下载不到源码:Cannot download sources Sources not found for:

记录下记录下,很神奇的问题,也不去深究了,解决就行,侧重点不在这,就把方法记录下了文章目录问题问题排查方案一 Maven的镜像换一换试一试方案二 删掉工程下的缓存和IDE配置文件方案三 找个能下载源码的同事或环境换上它的maven版本或setting.xml文件方案四 换个maven版本方案五 命令行让maven重新下载依赖并一并把源码下载下来警告注意问题Maven无法下载源码通过IDE进行下载源码,点进源码的.class文件,IDE会自动弹出Download Sources or Choos.

2021-09-03 12:27:19 1952 2

原创 Flink:程序打包与提交任务运行

记录下,同事在自己环境弄,出了一堆问题,搞个wordcount的流计算打包发布搞不通,,,网上资料对于flink版本层次不齐,想想还是记录下个人在1.11.x版本的处理,别在这事上浪费时间对应节点贴上了官网文档位置,最好的文档就是官方文档文章目录环境工程运行逻辑代码pom文件依赖打包插件提交到Flink运行UI界面提交命令行提交提交任务保存一个savepoint从savepoint启动环境maven V3.6.xFlink 1.11.xJDK 1.8Scala 2.11.x 2.12.x都.

2021-09-02 17:58:26 485

原创 大数据之ES:原理详解、技能大赏与API操作示例

来吧,架构深入和技能大赏以及HTTP操作示例说明:部分图片和概念叙述来自于atguigu公开资料和ES官网文章目录ES 技能大赏ES原理深入核心概念故障转移路由计算分片控制写操作读操作更新流程多文档操作流程分片原理动态更新索引近实时搜索持久化变更段合并文档分析分析器使用场景指定分析器自定义分词器文档处理文档冲突外部系统版本控制HTTP 操作索引操作文档操作映射操作创建映射查看映射索引映射关联高级查询查询所有文档匹配查询字段匹配查询关键字精确查询多关键字精确查询指定查询字段过滤字段组合查询范围查询模糊.

2021-08-27 11:36:18 302

原创 大数据之ES:简介与Window部署、Linux单机和Linux集群部署以及集群部署问题

记录下,部分叙述说明参考网上资源和尚硅谷开放资源,如有侵权,请联系删除文章目录简介全文搜索引擎Elasticsearch And SolrES OR SolrElasticsearch 应用案例安装部署Windows安装Linux单机安装Linux集群安装集群启动异常问题集群不能发现数据格式映射简介ES是分布式、RESTful风格的搜索和数据分析引擎。作为The Elastic Stack的核心The Elastic Stack, 包括 Elasticsearch、Kibana、Beats 和 .

2021-08-24 15:52:48 233

原创 Flink:DataStream、TableAPI&SQL技能大赏

概要堆叠式技能大赏,包括Flink的运行架构、DataStream API、TableAPI、CEP、SQL文章目录Flink API技能大赏Flink SQL技能大赏Flink API技能大赏看图自己回忆各个模块并散发式产生各个实际概念和应用方式以及应用场景Flink SQL技能大赏看图自己回忆各个SQL语法并散发式产生各个实际运行流程和应用方式以及应用场景...

2021-08-23 18:42:32 83

原创 大数据之Phoenix:Phoenix+HBase、DDL、DML和二级索引的使用

记录下,方便查官方文档:文章目录DDL查看所有表创建表查看表结构修改表删除表退出命令行DML插入记录查询记录删除记录修改记录Phoenix表映射视图映射表映射HBase中表不存在时HBase中表存在时视图映射和表映射总结Phoenix创建HBase二级索引配置 HBase 支持 Phoenix 创建二级索引测试二级索引Phoenix 索引分类全局索引局部索引Local index 和 Global index区别删除索引DDL查看所有表0: jdbc:phoenix:mini1,mini2,mi.

2021-08-13 18:21:47 165

原创 大数据之Phoenix:介绍与安装部署

记录下Phoenix安装流程文章目录简介特点安装测试SQL简介Phoenix 最早是 saleforce 的一个开源项目,后来成为 Apache 的顶级项目。Phoenix 构建在 HBase 之上的开源 SQL 层. 能够让我们使用标准的 JDBC API 去建表, 插入数据和查询 HBase 中的数据, 从而可以避免使用 HBase 的客户端 API.在我们的应用和 HBase 之间添加了 Phoenix, 并不会降低性能, 而且我们也少写了很多代码.特点将 SQl.

2021-08-02 15:19:23 328

原创 Flink:ValidationException: Too many fields referenced from an atomic type/Field reference expression

文章目录环境报错发生场景原因解决因为不注意导致的不太直观知道问题原因的报错环境Flink 1.11.xscala 2.xjava8idea报错Exception in thread "main" org.apache.flink.table.api.ValidationException: Field reference expression expected. at org.apache.flink.table.typeutils.FieldInfoUtils.extractFiel

2021-08-02 14:03:24 502

原创 Flink:scala包版本问题:scala.Predef$.refArrayOps([Ljava/lang/Object;)Lscala/collection

这几天深入研究flink,并把之前的东西进行复习下,留点笔记这问题还真给我搞脑子,本来是新电脑下载的最新的IDEA,然后导入项目,楞许久跑不起来简短点说,原因:scala版本冲突检查:Flink或Spark引入的jar对应的scala是不是和你环境的scala一致,别一个2.11,一个2.13.Pom文件检查jar的scala版本;项目检查Project Structure>Global Libraries再Project Structure>Modules&g.

2021-08-01 23:17:26 1210

原创 JupyterNotebook代码提示与自动补齐

文章目录Jupyter Notebook代码提示及补齐Jupyter Notebook代码提示及补齐Tab键可补齐代码代码提示功能需要装插件1.打开 Anaconda Navigator,点击 Environments -> base (root) -> Open Terminal2.在命令终端里依次执行如下命令pip install jupyter_contrib_nbextensionsjupyter contrib nbextension install .

2020-11-17 15:39:08 6429 1

原创 AI工具:Anaconda中Jupyter不能import已安装module问题解决

jupyter模式下写代码时,通过pip install package命令行安装package完成之后,无法在jupyter模式下import ,这是个通用的问题,我这里遇到的是import jieba,可能import 别的package也会出现,记录下,也花了点时间排查。。。文章目录环境问题解决环境windows10anaconda3jiebapython3问题python3版本,已经安装好了jieba模块,并且已经本地写个.py的测试jieba分词的python文件可以运行.

2020-06-17 03:16:04 1476

原创 AI工具:Windows安装jieba中文分词工具与测试

这几天弄一个项目用到jieba中文分词工具,之前电脑重装系统,系统内没了,这下来安装,碰到了坑,记录下文章目录环境安装python3.7安装jieba官网下载在线安装jieba安装过程中报错pip is configured with locations that require TLS/SSL测试jieba环境win10python3.7jieba-0.39安装python3.7官网链接:https://www.python.org/downloads/windows/选择对应版.

2020-06-16 23:38:15 764

原创 GitBook部署与编写使用

记录下gitbook文章目录介绍部署安装Node.js安装gitbook使用配置说明插件配置GitBook Editor编写创建文件夹或目录编写目录git push/pull介绍GitBook是一个基于Node.js的命令行工具,可使用Git和Markdown来编写文档。总结几点:多人协作管理文档文件服务book发布markdown编写阅读舒畅个人或组织博客git管理…官网:https://www.gitbook.com/部署安装Node.js wget https:/.

2020-06-09 14:03:40 946

原创 AI基础:先验概率、后验概率

前几天朋友问到贝叶斯公式,在给他讲述时有些概念不容易从字面接受。这里记录并通俗解释下文章目录解释案例解释贝叶斯公式解释先验概率:根据以往经验和分析得到的概率,以因求果问题中因的概率。(个人理解:先,即事情未应验前来估计发生的概率,也就是没有任何事实依据来估计发生的概率)条件概率:某个事情发生情况下另一件事情发生的概率(很好理解,不多解释)后验概率:一种条件概率。指依据得到"结果"信息所计算出的最有可能是那种事件发生,如贝叶斯公式中的,是"执果寻因"问题中的"因"(个人理解:后,事情.

2020-06-02 23:22:15 350

原创 大数据之ClickHouse:安装部署与性能测试

记录过程文章目录概述环境安装常用配置启动/检查服务命令行客户端卸载性能测试概述个人总结式理解,详细的去官网看吧俄罗斯搜索引擎公司Yandex研发,2016年开源的列式存储数据库主要用于在线OLAP不支持事务所以不支持OLTPClickHouse中文社区ClickHouse中文官网优势在于大宽表查询,join多个大表查询性能比不上一般的OLAP工具极致性能在于极致的压榨服务器...

2020-05-03 01:22:42 936

提示
确定要删除当前文章?
取消 删除