自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(33)
  • 收藏
  • 关注

原创 【神经网络】基于CNN(卷积神经网络)构建猫狗分类模型

针对经典猫狗数据集,基于卷积神经网络,构建猫狗二元分类模型,使用数据集进行参数训练,模型评估,然后使用模型进行分类预测,最后对模型进行保存 在使用next()加载图像时,要确保路径正确,否则会报StopIteration错误,原因是路径错误,找不到可迭代的数据。

2024-06-18 20:00:32 1376

原创 【神经网络】图像的数字视角

1 图像本质就是一个由长、宽、通道值组成的三维数组。

2024-06-18 19:48:45 433

原创 机器学习-随机森林算法预测房租模型

1、数据预处理阶段,数据缺失值处理,要根据数据集实际含义,去选择合适的处理方式2、机器学习模型训练评估,实际工作量会在数据探索性分析和数据预处理环节,至于建模和训练只需调用封装好的函数即可。

2024-04-17 18:21:09 1044

原创 pandas数据分析常用函数(持续更新)

网上教程多分散,需要会员,现将学习机器学习过程中数据探索性分析用到的函数进行整理,方便后续自查。同时,会持续更新。

2024-04-17 11:02:18 801

原创 机器学习-随机森林温度预测模型优化

在机器学习-随机森林算法预测温度一文中,通过增大模型训练数据集和训练特征的方式去优化模型的性能,本文将记录第三方种优化方式,通过调整随机森林创建模型参数的方式去优化模型,即调参。这里调参和神经网络使用验证集调整超参数概念不太一样,所以不会去使用验证集。本文调参,将使用RandomizedSearchCV()函数,去交叉验证不同参数组合的模型性能,选择最优性能的参数组合模型。

2024-04-14 22:21:49 699

原创 Kaggle网站使用问题汇总

新用户注册Captcha must be filled out问题,数据集无法下载问题

2024-04-09 18:06:18 420

原创 机器学习-随机森林算法预测温度

机器学习算法,随机森林预测温度

2024-04-09 18:06:01 1738

原创 python 连接clickhouse数据库及简单操作

最近研究了下python爬虫,想爬取一些数据存储到clickhouse里,进行分析。由于是新手,搜了好多教程,也踩了好几天的坑,记录一下,防止以后再走弯路。遇到的问题主要集中在建立连接语句上,client = Client(host=‘xx.xx.xx.xx’, port=8900, user=‘default’, password=‘xxxxx@xxxxx’, database=‘default’)参数赋值方式。使用 host= 格式赋值端口用错问题。

2024-01-18 20:51:40 1960

原创 clickhouse安装及简单使用

clickhouse设计比较精简,具有强大的数据写入性能、极其高效的查询性能、高效压缩存储,单机部署性能丝毫不逊色于传统的大数据集群。由于使用体验简单直接,使得运维工作同样变的简单。版本迭代相当迅速,主动兼容了jdbc、mysql和postgresql这些成熟产品,周边生态成熟。非常适合用来搭建数据仓库。clickhouse的官网文档有中文版,写的还是比较全的,可以多去参考查阅。

2024-01-18 18:11:14 1432

原创 Typora 主题修改

激活可以从网站搜博客教程,唯一要重点强调说明的是安装完成后不要打开,要先执行激活程序后,再打开软件,按要求输入序列号、邮箱,这点很重要。但是插入的图片还是灰蒙蒙的,又经过几番调试,发现是这段样式的opacity去控制的,也是位于base-control.css文件中。于是到安装目录搜索这个文件,果然找到了这个文件,于是把–blur-text-color注释掉,果然界面就清晰了。到安装目录下搜索该文件,找到该样式,将opacity设置成1 就OK了。打开Typora后,展示内容是灰蒙蒙的颜色,

2024-01-10 18:13:28 452

原创 hadoop dfs web页面访问增加鉴权

装好了Hadoop,通过浏览器访问,发现竟然不需要鉴权就能访问,且暴露了很多服务器层文件路径信息,基于多年积累的安全意识,必须得配置些鉴权信息,就有了该文,仅做学习记录,下次自己再装时能提高效率。

2024-01-09 19:18:41 471

原创 flume taildir source 采集合并日志

taildir source 可以监控一批文件,实时采集信息,且支持断点续传(agent重启后不会重复采集)该场景下,同时监控两个日志文件,一个是docker容器日志,一个是MySQL的系统日志1、使用file_roll sink,重启flume 会新创建一个储存文件,不管source是 exec 还是taildir2、taildir断点续传只是在内容上接续,但不是在原文件中以上是个人实验所得,若有不合适地方,欢迎大家指正。

2024-01-09 14:52:13 492

原创 flume 使用 exec 采集容器日志,转储磁盘

flume 使用 exec 采集容器日志,转储磁盘在该场景下,docker 服务为superset,flume 的sources 选择 exec , sinks选择 file roll 。

2024-01-03 15:45:25 570 1

原创 flume 安装及简单使用

flume 安装及简单示例

2024-01-03 10:15:26 429 1

原创 开源可视化大屏superset Docker环境部署

superset是俄罗斯开源的一款可视化大屏,用于数据可视化探索,含有丰富的图表组件,可以支持接入各种数据源。

2023-12-26 12:48:20 720

原创 SourceTree如何看代码分支图谱?

SourceTree图谱分析

2023-05-12 14:04:56 3050 1

原创 SourceTree使用教程(七)--合并某次提交

概述 在Git的实际使用场景中,未必都是很规矩的拉一个分支,开发一个功能,等功能测试完成后,合并到主分支。有很多的场景都是很多人在同一个开发分支上开发,然后按照上线的实际需要,依次去上传自己的功能模块,这个功能模块的提交记录很可能是交叉提交的,那么这时候如何去只合并一个功能到主分支呢?或者是说怎么使用sourceTree去合并某次或某几次(不连续)提交到另一个分支?方法步骤1 打开sourceTree,切换到develop分支2 打开本地工作副本,新增test2.txt文件,...

2021-07-27 22:19:21 3705

原创 SourceTree使用教程(六)--回滚版本到某次提交

概述在SourceTree使用教程(五)中讲到了提交的撤销回滚,并且注明这个撤销回滚只能撤销回滚最新的提交记录,并不能回滚到某个历史版本。但是实际使用场景中肯定会遇到需要回退到某个提交的,而不仅仅是最新的提交。本次教程将讲述如何使用SourceTree来回退代码到某次提交。方法步骤1 打开sourceTree,切换到开发分支2 打开本地工作副本test1.txt文件,编辑新增 add test13 提交并推送本次新增到远程仓库4打开本地工作副本test1.txt文件,..

2021-07-27 21:48:51 9152 9

原创 SourceTree使用教程(五)--- 文件部分提交与撤销回滚

概述 SourceTree比起tortoiseGit来,最大的不同之处在于 Sourcetree支持文件的部分提交,这大大方便了用户的使用。 有的时候,我们开发了一个A功能,未上线,同时又并发开发了B功能,B功能比A功能先上线,而且B功能和A功能修改的是同一个文件,这种情况在上线B功能时,SourceTree就体现出优势了。方法步骤1 打开本地工作副本,增加文件activityServiceImpl.java,这个文件没啥特别,就是代码行数很多,方便演示。2...

2021-07-27 21:22:10 5456 1

原创 SourceTree使用教程(四)---冲突解决

概述 虽然在团队协作开发中强调尽量避免操作同一文件,以避免冲突,但是在实际开发中还是会遇到冲突,所以掌握解决冲突的方法必不可少。方法步骤1 解决冲突就要先制造冲突,冲突一般是由于两个人同时修改同一文件而造成的。在GitHub上修改远程仓库文件模拟一个人操作,sourceTree本地修改同一文件模拟另一个人操作。2 登录GitHub ,打开GitTest,编辑test1.txt文件3 在文件末尾增加 内容 code conclick1,点击提交。如下图所示。...

2021-07-27 21:13:59 14919

原创 SourceTree使用教程(三)--- 分支创建与合并

概述该教程主要介绍sourceTree中创建分支和合并分支的使用方法和使用场景。分支是Git最大的特色之一,可以方便的进行版本部署和开发,而不互相影响。使用步骤1、分支。当要新增一个功能,又要保证原始功能的正常的使用,这个时候为了不影响原功能的使用,就可以建立一个分支,在分支上进行新增功能的开发,等到新增的功能测试通过后再把分支合并到主干上。如下图,点击分支,输入新分支名字,以当前工作副本为基础生成一个新的develop分支。2、 点击创建分支,可以看到多了一个develop分支,但是这

2021-07-26 23:34:28 10827

原创 sourceTree使用教程(二)--- 拉取和获取

1 打开github上的GitTest版本库,编辑test1.txt文件,如下图。2 在文件test1.txt增加一行,如下图,提交。3 获取和拉取。获取是将远程仓库的代码更新到本地仓库,拉取是将本地仓库的代码更新到本地工作副本。打开sourceTree,点击 获取按钮,如下图4 点击确定,可以看到拉取图标那里多了一个蓝底白色的数字1,分支master那里也有一个灰色的数字1,并有一个向下的箭头,这表示 有一个更新需要拉取到本地工作副本。同时打开版本文件,可以看到test1.tx..

2021-07-26 23:26:10 5615 1

原创 SourceTree使用教程(一)---克隆、提交、推送

概述SourceTree是最好用的版本管理客户端软件,没有之一。本人将以连载经验的形式来详细讲述如何利用sourceTree去进行代码或文件的版本管理。教程一将讲述 克隆,提交,和推送。工具下载SourceTree下载 链接:https://pan.baidu.com/s/1W5rkiXF4DKBvUMGl5Gw5Lw 密码:djmg使用步骤在使用SourceTree之前必须要先安装Git和sourceTree,具体安装过程不再赘述,大家可以搜索其它教程。1 注册并登陆Githu

2021-07-26 23:19:33 8164 1

原创 Git工作流实践

Git工作流1 在Git的工作流程中,有两种典型的实用场景,一种是单人工作模式,比如自己学习某个课程的笔记,如下图2 另一种是多人工作模式,这也是最常用最经典的场景。说起Git多人协作的工作流程当然离不开Git的分支这一经典的功能了。大概会包含但不仅限于maste分支,develop分支,feature分支,hotfix分支。3 master分支,是项目的生产分支,是产品正式发布的分支,只有一个。Master分支的推进只能来源于develop分支和hotfix分支的合并。4 develop分支

2021-07-23 12:50:22 312

原创 onlyoffice学习记录-安装与Demo运行

onlyoffice 安装与运行公司项目需要导入自定义表单然后分发给不通人去填写,然后再搜集汇总,于是便研究了在线协作文档开源框架onlyoffice。发现网络上这个并没有很详细的技术文档,于是对照了网络上仅有的内容看起了官网的英文文档。现将学习探索内容记录如下,供后续翻阅查看。该文章仅针对onlyoffice下的document server服务。下载安装仅采用docker镜像方式安装,其它安装方式后续尝试后再来补充。docker 环境搭建请去网上搜索教程,不再赘述镜像下载命令如下:dock

2021-07-20 11:07:51 5444 6

原创 springboot2.2.1集成activiti5.22

springboot2.12集成Activiti5.22工作中遇到项目业务中有复杂的流程体系,于是考虑引入工作流。对比了几款开源工作流引擎,最终选择activiti。在版本选择上选择了比较稳定用的最多的5.22版本。6.0版本以后对activiti进行重构,用法变化较大,以后有机会再研究。activiti 5.22 集成springboot2.2.1前提:项目已有web服务基础,可以对外提供restful接口,并能查询MySQL数据库获取数据。1、引入activiti5.22依赖包,只需要这一个包

2021-07-20 08:57:54 555

原创 Spark开发学习之RDD编程

Spark开发学习之RDD编程什么是RDDRDD(Resilient Distributed Dataset)是分布式数据集,是Spark设计里最为核心的概念。在RDD出来之前,所有的分布式批处理计算系统都是从存储中读取数据到计算完成后将结果写入存储的模型,这种计算模型在处理数据集迭代运算时效率不高,为了解决这一问题,RDD应运而生。[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-2kjsbB89-1626070161978)(spark-structure.png)]

2021-07-12 14:15:20 312

原创 Spark开发学习之使用idea开发Spark应用

Spark学习之使用idea开发Spark应用该文章是基于jdk1.8,idea开发工具,maven都配置好的前提下进行讲述的。背景由于已经在远程centos服务器上部署了saprk服务,但基于spark的应用程序的代码却是在本地idea开发的,那么如何能让本地开发的spark代码能在远程spark服务上运行调试便成了迫切需要解决的问题。idea下scala插件安装idea开发工具,File->setting->Plugins->Browse respositories,搜索sc

2021-07-09 15:05:04 1972

原创 Spark开发学习之Scala环境搭建

Spark开发实战之Scala环境搭建Scala和Spark关系是,spark是用scala语言开发的。若想使用Scala开发Spark下的应用程序,并编译运行,则需要配置Scala开发环境,否则可以先不用装,后续用到时再装。概述Scala是一门多范式编程语言,设计初衷是要集成面向对象编程和函数式编程的各种特性。Scala运行在Java虚拟机上,可以兼容现有的Java程序。Scala源代码被编译成Java字节码,并可以调用现有的Java类库。语法既然是一门编程语言,那必然会有自己的语法,具体不再

2021-07-08 12:34:28 621

原创 Spark3.1.2单机安装部署

spark3.1.2 单机安装部署概述Spark是一个性能优异的集群计算框架,广泛应用于大数据领域。类似Hadoop,但对Hadoop做了优化,计算任务的中间结果可以存储在内存中,不需要每次都写入HDFS,更适用于需要迭代运算的算法场景中。Spark专注于数据的处理分析,而数据的存储还是要借助于Hadoop分布式文件系统HDFS等来实现。大数据问题场景包含以下三种:复杂的批量数据处理基于历史数据的交互式查询基于实时数据流的数据处理Spark技术栈基本可以解决以上三种场景问题。下载下载

2021-07-08 11:44:25 3589 3

原创 Hadoop3.2.1安装-单机模式和伪分布式模式

Hadoop入门篇概述Hadoop是使用Java编写的,是为了解决大数据场景下的两大问题,分布式存储和分布式处理而诞生的,包含很多组件、套件。需要运行在Linux系统下。主要包括HDFS 和 MapReduce两个组件。下载安装下载下载地址 https://archive.apache.org/dist/hadoop/common/选择合适自己的tar.gz版本下载,该文档选择V3.2.1。Hadoop是Java开发的,所以依赖jdk运行,要先安装jdkHadoop和jdk版本对应关系

2021-07-06 16:09:26 800

原创 logstash入门篇之安装启动

logstash入门篇之安装启动本文包含内容如下:logstash简介、下载和安装、 启动和后台启动、 运行原理、 自动装载配置文件

2021-03-07 16:49:22 7419

原创 记一次线上项目内存溢出排查经历

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Mar

2020-05-29 11:57:58 1441

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除