打牛地-CSDN博客

原创 XGBoost 模型参数解释

上篇博文介绍了xgboost这个算法的推导，下面我们在调包使用这个算法的时候，有一些参数是需要我们理解的。https://blog.csdn.net/weixin_43172660/article/details/83048394 这是上篇博文这里先讲怎么调用xgboost这个包进行运算首先先引入这个包和数据（包可以用pip install xgboost进行下载）import panda...

2018-10-16 21:11:19 12101

原创机器学习集成算法XGBoost原理及推导

XGBoosting介绍在上一篇构造决策树的博客中说到，XGBoost是一种通过集成的思想提高模型准确率的算法，这种算法是基于决策树模型的。不懂的可以看下面地址，包含了决策树的介绍和构造。https://blog.csdn.net/weixin_43172660/article/details/82995442下面通过一个具体的例子来说明XGBoost干了一件什么样的事情。如果要判断是否打...

2018-10-15 21:55:20 2617 1

原创 sklearn-GridSearchCV 网格搜索调参数

Grid Search 网格搜索GridSearchCV：一种调参的方法，当你算法模型效果不是很好时，可以通过该方法来调整参数，通过循环遍历，尝试每一种参数组合，返回最好的得分值的参数组合比如支持向量机中的参数 C 和 gamma ，当我们不知道哪个参数效果更好时，可以通过该方法来选择参数，我们把C 和gamma 的选择范围定位[0.001,0.01,0.1,1,10,100]每个参数都能...

2018-10-12 20:00:09 8258 1

原创机器学习决策树的介绍和构造

决策树在如今机器学习领域，树可以说是最为重要的模型，在提高模型的准确率上有巨大威力的XGboost 都是基于树模型的，随机森林（包括多个决策树的分类器）也是基于树模型。树模型决策树，顾名思义就是和树一样，决策树从根结点开始一步步通过特征走到叶子节点所有的数据最终都会落到叶子节点上，即可以做分类也可以做回归下图就是一个简单的树模型，想要找到喜欢打游戏的人，通过对年龄和性别这两个特别，对...

2018-10-10 21:48:29 1440 3

原创机器学习评价指标-召回率（Recall）精确率（Precision）准确率（Accuracy）ROC曲线和AUC值

召回率（Recall）精确率（Precision）准确率（Accuracy）ROC曲线和AUC值是机器学习中常用的评价指标，下面用具体的事例来一一介绍每个指标的具体含义。假设某个班级有男生80人，女生20人，共100人。目标是找出所有的女生现在有人挑选出了50个人，其中20个是女生，另外还错误的把30个男生也当作女生挑选了出来。下面根据一个图给大家说几个概念。TP(True Posi...

2018-10-07 16:31:09 3119

长连接在HTTP/1.0中默认使用短连接。也就是说，客户端和服务器每进行一次HTTP操作，就建立一次连接，任务结束就中断连接。当客户端浏览器访问的某个HTML或其他类型的Web页中包含有其他的Web资源（如JavaScript文件、图像文件、CSS文件等），每遇到这样一个Web资源，浏览器就会重新建立一个HTTP会话。在使用长连接的情况下，当一个网页打开完成后，客户端和服务器之间用于传输HTTP数据的TCP连接不会关闭，客户端再次访问这个服务器时，会继续使用这一条已经建立的连接。Keep-Alive不会

2021-10-20 13:45:14 1302

原创 AWS ALB NLB CLB负载均衡器

ELB类型我们在AWS控制台创建负载均衡器类型时，会发现有三个选项可以选择，分别是应用负载均衡器（ALB），网络负载均衡器（NLB），经典负载均衡器（CLB）。下面会介绍这三种负载均衡器的特别。...

2021-09-14 18:24:38 10432 1

原创版本控制系统Git

通过版本控制系统git来管理文件工作目录有个代码文件通过git add file 添加到暂存区域通过git commit -m ‘你自己输入的信息’ 添加到本地仓库git commit 相当于虚拟机的镜像，任何操作都被做了一次快照，可恢复到任意一个位置Git命令git init 初始化仓库把一个目录初始化为版本仓库（可以是空的目录也可以是带内容的目录）git status 查看当前仓库的状态git add file 添加文件到暂存区git add . 或者**git add ***

2021-06-23 17:12:31 269

原创 Dockerfile操作

Docker镜像制作docker镜像制作有两种方法container通过commit来构建imagesDockerfile通过build来构建imagesDockerfile核心指令USER/WORKDIR[root@ip-10-0-0-108 ec2-user]# docker image lsREPOSITORY TAG IMAGE ID CREATED SIZEhello-world latest d1165f2

2021-06-02 17:37:06 165

原创 Docker容器的高级操作（常用操作）

端口映射docker run -p 容器外端口:容器内端口[root@ip-10-0-3-12 ec2-user]# docker image lsREPOSITORY TAG IMAGE ID CREATED SIZE58440236/nginx v1.12.2 4037a5562b03 3 years ago 108MB[root@ip-10-0-3-12 ec2-user]# docker run --rm --name myn

2021-05-08 18:27:40 233

原创 Docker容器的基本操作

查看本地的容器进程[root@ip-10-0-0-45 ec2-user]# docker ps -a //将所有进程列出，包括终止的CONTAINER ID IMAGE COMMAND CREATED STATUS PORTS NAMESb1c240413b16 hello-world "/hello" 3 hours ago Exited (0) 3 hours ago bor

2021-05-06 18:37:23 348

原创 Docker的镜像管理

容器，镜像和仓库的关系容器是由镜像实例化出来，镜像是容器的模板，容器也可以提交成镜像镜像可以从仓库拉取到本地，也可以将镜像从本地推送到仓库Docker HubDocker hub是docker最大的镜像仓库，可以先在dockerhub.com注册一个账号，方便后续会用到。[root@ip-10-0-0-45 ec2-user]#docker login docker.io //登陆你的docker hub账号，输入dockerhub注册的账号密码username：password：登

2021-05-06 16:11:56 329

原创 Docker的安装跟启动

安装并启动一个Docker容器yum install docker//安装dockerservice docker start //启动dockerdocker run hello-world//创建一个新的容器运行成功会有如下的信息，1.2.3.4步骤说明了启动一个docker容器经历的过程1：docker客户端连接docker服务端2：docker服务端在docker hub 中拉取hello-world镜像3：docker服务端创建一个容器，这个容器是根据拉下来的镜像启动的一个容器，这

2021-05-06 14:19:20 584

原创使用源访问身份（OAI）限制对 Amazon S3 内容的访问

使用源访问身份限制对 Amazon S3 内容的访问很多互联网公司，会选择将图片放在S3上，并利用CloudFront对存储桶的内容进行加速分发，这样用户就可以通过S3访问图片，也可以通过CloudFront的域名来访问图片，但是，公司希望能够限制对S3内容的访问，只希望用户通过CloudFront的域名来访问，从而达到加速的效果。可以通过下面几个步骤达到这一需求。创建cloudfront加速的源S3桶创建一个称为源访问身份 (OAI) 的特殊 CloudFront 用户，可在创建CloudFro

2020-11-17 16:45:02 1880

原创数据挖掘实战

导入数据，将标签（Y）和样本（X) 分开来import pandas as pdX = pd.read_csv(&quot;data.csv&quot;)y = X[&quot;status&quot;]X.drop([&quot;status&quot;],axis=1)X.head(5)将数据分成训练集和测试集from sklearn.model_selection impo

2020-10-22 18:18:31 278

原创 Kafka基本概念

Kafka介绍Kafka是一个分布式、支持分区的（partition）、多副本的（replica），基于zookeeper协调的分布式消息系统，它的最大的特性就是可以实时的处理大量数据以满足各种需求场景：比如基于hadoop的批处理系统、低延迟的实时系统、消息服务等等。下图是kafka的具体场景，你可以把你的日志存储在kafka中，能在中间过程作为缓存，你的系统需要数据时，再去消息系统中取数据，起到了解耦合的作用。Producer - 生产者往消息系统里面发送数据的就是生产者。Consumer

2020-09-23 18:08:25 272

原创 AWS SageMaker 各组件功能详解

AWS SageMakerAmazon SageMaker 是一项完全托管的服务，可以帮助开发人员和数据科学家快速构建、训练和部署机器学习 (ML) 模型。SageMaker 完全消除了机器学习过程中每个步骤的繁重工作，让开发高质量模型变得更加轻松。AWS SageMaker 是AWS 2017年推出的机器学习服务，下面将介绍AWS SageMaker 的各个组件和优点。Amazon SageMaker StudioAmazon SageMaker Studio是全集成的机器学习 (ML) 开发环

2020-09-08 18:50:49 4404

原创 AWS SageMaker 进行猫狗识别

方案架构工作原理Demo代码附录

2020-08-04 10:10:06 570 2

原创 AWS Direct connect，VPC Peering，VPC endpoint

AWS Connection当我们面对不同的场景时，可能需要不同的AWS Connection 方案，下面我们一一介绍这些AWS连接服务，具体包括VPN，Direct connect，VPC Peering，VPC endpoint。VPN（Virtual Private Network）当我们本地数据中心需要连接到云上服务的时候，一般情况下需要用到Internet来传输数据，这种情况下，数据很容易受到攻击，基于这种情况下，VPN在两者之间建立了一条VPN管道，可以很好的将数据安全的封装起来，这样的话

2020-06-08 09:36:45 1759

原创 AWS Route 53介绍与实验

Route 53Route 53 是AWS的一个服务，它的主要功能如下，下面会一一介绍每个功能Domain registration（域名注册）DNS management（DNS管理）Health check（健康检查）Routing polices（路由策略）Domain registration（域名注册）域名注册，顾名思义就是帮你注册一个域名，点击Route 53的控制面板，就会出现注册域，你可以选择你想要的域名，然后检查有没有别人使用该域名，如果没有，就可以直接注册，一般价格是1

2020-06-02 14:45:59 8162 1

原创 AWS 弹性三剑客

弹性三剑客如下图所示，ELB，AutoScaling和CloudWatch组成了AWS的弹性三剑客，三个服务保证了应用的弹性。当ELB中的目标组中的实例的指标（比如CPU利用率）出现告警时，会触发cloudwatch监控，cloudwatch进行扩展或者缩减策略，auto scaling通过该策略进行EC2实例的扩展或者缩减，并注册在ELB目标组中。...

2020-05-28 17:02:19 1352

原创 AWS云计算 SAA考试考点笔记

EBS 类型通用型 (SSD): 适用于I/O需求中等的各种类型的数据库工作负载。基础性能为每GB 是3 IOPS，并能够突破3000 IOPS的性能，为您提供更为强劲的性能，这将适用于很多应用；预配置IOPS (SSD): 适用于对数据库工作负载的要求比较大，包括事务处理型 (OLTP) 。这种存储类型提供了最一致的性能，可以根据应用的需求提供1000 - 3000 IOPS；磁存储 (...

2020-03-28 00:57:18 2617

原创 AWS 云计算 SQS SNS

SQSAmazon Simple Queue Service (SQS) 是一种完全托管的消息队列服务，可让您分离和扩展微服务、分布式系统和无服务器应用程序。SQS 消除了与管理和运营消息型中间件相关的复杂性和开销，并使开发人员能够专注于重要工作。借助 SQS，您可以在软件组件之间发送、存储和接收任何规模的消息，而不会丢失消息，并且无需其他服务即可保持可用。使用 AWS 控制台、命令行界面或您选...

2020-03-26 14:25:25 1910

原创 AWS IAM介绍

IAM是干什么的很多人不知道IAM是什么东西，IAM简单来说只干了两件事Identity：认证身份Access Management：授权认证身份一般有这么几种访问方式，最常见的当然是AWS管理控制台，CLI可以通过命令行访问，而SDKs则像直接调用类库来访问，python，java都可以直接调用。授权操作策略策略操作你可以自己创建自己想要的策略，比如允许访问S3策略。角色...

2020-03-20 13:55:28 2480

原创 AWS VPC(Virtual Private Cloud)

VPC(Virtual Private Cloud)VPC(Virtual Private Cloud)可以将云上资源划分出来，做为一个隔离的云上数据中心使用。下图是VPC的基本架构，包括了一些高可用区，每个可用区可以有一到多个不同的子网，若VPC需要和公网互联，我们还需要添加一个Internet gateway，可就是网关。VPC的具体操作在控制台界面这里我们创建一个带有公有子网和私有子...

2020-03-05 00:47:21 663

原创 AWS CloudFront分发

CloudFront（CDN）Amazon CloudFront 是一个 Web 服务，它加快将静态和动态 Web 内容（如 .html、.css、.js 和图像文件）分发到用户的速度。CloudFront 通过全球数据中心网络传输内容，这些数据中心称为边缘站点。当用户请求您用CloudFront 提供的内容时，用户被路由到提供最低延迟 (时间延迟) 的边缘站点，从而以尽可能最佳的性能传送内...

2020-02-27 22:45:43 1231

原创 AWS CloudWatch,CloudTrail,Config

CloudWatchCloudWatch指标是AWS的监控服务包括四大功能，第一是指标功能，第二是警报功能，第三是日志功能，第四是对事件处理的功能下图是CloudWatch的框架CloudWatch在EC2实例下面的监控标签，会有EC2的指标创建警报在监控页面的右上角，有个创建警报,接着可以选择你想要创建的警报这里的状态检查失败指的是下面这几种情况，当你出现这几种情况则会...

2020-02-26 15:03:03 4736

原创 AWS 利用S3存储桶创建静态资源

创建S3存储桶第一步：进入S3服务，点开创建存储桶第二步：给你的存储桶起名字第三步：点击左下角创建，即可创建成功往存储桶上传内容第一步：点击你想要上传到的存储桶第二步：将你想要的上传的东西拖到界面中，点击上传，即可完成权限设置点击存储桶，然后在存储桶的权限栏可以设置你想要设置的权限S3的顺序判断为IAM的权限，再判断bucket权限，最后判断object权限。...

2020-02-23 23:48:45 1432

原创 AWS ELB负载均衡创建实验

第一步：点击左边负载均衡器第二步：左上角创建负载均衡器第三步：选择第一个应用程序负载均衡器，点击创建第四步：可取个方便你识别的负载均衡器名字，选择一个可用区，其他默认设置第五步：选择一个默认安全组或者创建新的安全组第六步：输入一个目标组名字，下一步第七步：选择一个或多个运行中的实例，接着下一步创建...

2020-02-22 18:10:38 1526

原创 AWS云计算基本概念和基本操作

安全组（类似于防火墙功能，用于设置网络访问控制）入方向：流量进入实例授权对象：访问实例的原ip地址 0.0.0.0代表任意一个ipv4的ip地址端口范围：SSH协议22端口出方向：实例出去的流量密钥对（可用于SSH登录协议登录Linux系统，相当于密码）公匙：放在实例里面，一般路径为~/.ssh/authorized_keys私匙：用户保管（登录时提供私匙）实例连接使用 ...

2020-01-18 15:04:15 2371

原创随机森林算法梳理及相关参数介绍

集成学习的概念集成学习是使用一系列学习器进行学习，并使用某种规则把各个学习结果进行整合从而获得比单个学习器更好的学习效果的一种机器学习方法。一般情况下，集成学习中的多个个体学习器都是同质的"弱学习器"。bagging和boostingbagging和boosting都属于集成学习算法。bagging，是一种非常简单而通用的机器学习集成学习算法。RF（随机森林）需要用到bagging，但是其...

2019-02-28 14:48:41 3696

原创计算机网络学习笔记

此文章记录自己学习计算机网络笔记第一章概述计算机网络的七个性能指标速率：主机传送数据位数的速率 1Gb/s = 1000 Mb/s = 1000000kb/s = 1000000000b/s带宽：数字通道所能传送的最高数据率吞吐量：单位时间通过某个网络的数据量时延：发送时延+传播时延+处理时延+排队时延时延带宽积：传播时延×带宽往返时间：从发送方发送数据开始，到发送方收到接收...

2018-12-24 21:32:58 724

原创独热编码（OneHotEncoder）和标签编码（LabelEncoder）

数据分类我们在构建模型对数据进行训练之前，需要对数据进行特征工程，我们的数据可以分为连续型和离散型。对于连续型数据，我们一般的做法是对其进行标准化或者归一化，之前写过一篇标准化和归一化的介绍，大家有兴趣的可以看一下：https://blog.csdn.net/weixin_43172660/article/details/83826051对于离散型数据，我们基本就是按照one-hot（独热）...

2018-12-07 20:29:02 15820 3

原创机器学习逻辑回归原理详解

逻辑回归作为一个传统算法，可能从名字上来看，逻辑回归是一个回归算法，但是它却是一个分类算法，是最基础的分类算法，当我们做分类算法选择的时候，先用逻辑回归再用复杂的算法，能简单的先用简单的，逻辑回归的效果往往是最好的。sigmoid函数要学习逻辑回归，我们需要先认识一个函数，sigmoid函数，它的取值范围是0到1。逻辑回归之所以是一个分类算法，是因为它把结果值都映射到0到1的区间上，我们...

2018-11-25 16:13:42 463

原创机器学习特征选择（过滤法封装法嵌入法）

特征选择在机器学习工程中，特征工程才是最重要，特征决定着算法的上限，特征工程中最为重要和最为基础的两种技术，就是特征选择和特征降维。特征选择和特征降维的目的很简单，就是选择出或变换出更优的特征，从而更利于我们学习算法的学习。这特征选择的目的和特征降维的目的类似，但是特征选择和特征降维具有本质的区别，特征降维的主要特点是通过一个数学变换进行降维，而特征选择就是从众多特征中剔除不重要的特征，从而保...

2018-11-22 20:21:52 20451 1

原创 (Pearson)皮尔逊相关系数和spearman相关系数（附python实现）

今天在做数据分析的时候，发现了需要计算特征之间的相似度，从而在相似度比较高的特征之间保留一个就行。查了一下，发现可以通过皮尔逊相关系数和spearman相关系数来计算特征之间的相似度，下面将介绍这两个系数和区别。皮尔逊相关系数下面是皮尔逊相关系数的计算公式，只需要将（X和Y的协方差）/（X的标准差*Y的标准差）可以化简成spearman相关系数简单的相关系数的分类那么对于这两个系...

2018-11-11 19:08:22 19879 2

原创数据特征归一化/标准化方法

https://blog.csdn.net/jacke121/article/details/79008333https://blog.csdn.net/zhaobinbin2015/article/details/81228027

2018-11-07 19:24:08 2198

原创 missingno库---缺失值可视化分析

缺失值当我们拿到数据的时候，数据不一定是完整的，有时候一些特征有缺失值，我们可以通过可视化缺失值来决定我们下一步要进行的操作。missingno库missingno是一个可视化缺失值的库，方便使用，我们可以用pip install missingno 即可下载该库。例子import missingno as msnomsno.matrix(players.sample(500))#pl...

2018-11-06 19:48:42 5450 1

原创机器学习线性回归原理详解

线性回归线性回归是机器学习最基础的，也是最经典的算法，下面就来介绍这个算法。假如我们要去银行贷款，那么银行会贷给我们多少钱，我们可以通过特征来计算出来。数据：工资和年龄（2个特征）目标：预测银行会贷款给我多少钱（标签）考虑：工资和年龄都会影响银行贷款的结果，那么它们各自有多大的影响呢？（参数）工资年龄额度40002520000800030700...

2018-10-25 15:41:18 2431

原创机器学习 Adaboost算法原理详解

Adaboost介绍Adaboost，是英文Adaptive Boosting（自适应增强）的缩写，它的自适应在于：前一个基本分类器分错的样本会得到加强，加权后的全体样本再次被用来训练下一个基本分类器，同时，在每一轮中加入一个新的弱分类器，直到达到某个预定的足够小的错误率或达到预先指定的最大迭代数。Adaboost步骤初始化训练数据的权值分布，如果有N个样本，每个训练样本最开始都被赋予相同...

2018-10-21 19:01:17 2840

空空如也

空空如也