自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(66)
  • 收藏
  • 关注

转载 Redis Key过期通知

概述键空间通知使得客户端可以通过订阅频道或模式, 来接收那些以某种方式改动了 Redis 数据集的事件。如Redis数据库中键的过期事件也是通过订阅功能实现。本文主要基于Azure PaaS Redis演示相关功能的具体实现。配置因为开启键空间通知功能需要消耗一些 CPU , 所以在默认配置下, 该功能处于关闭状态。因为Azure Redis屏蔽了部分指令,不能直接使用cli...

2018-11-22 16:21:00 557

转载 Ubuntu 安装配置 JDK+Tomcat+Nginx

安装配置JDK下载安装# 下载: wget --no-check-certificate --no-cookies --header "Cookie: oraclelicense=accept-securebackup-cookie" "https://download.oracle.com/otn-pub/java/jdk/8u191-b12/2787e4a523244c2695...

2018-11-22 15:09:00 209

转载 Linux常用指令总结

概述因为平时不是经常使用Linux系统,每次用到都需要重新温习一遍,这里对自己平时经常使用到的指令做个小结,方便后面直接查阅。常用指令登陆root指令sudo su -安装软件及卸载指令dpkg --list # 列出已经安装的包sudo apt-get --purge remove 包名 # --purge是可选项,写上这个属性是将软件及其配置文件一并删除s...

2018-11-20 17:43:00 201

转载 使用Openssl创建证书

概述SSL证书通过在客户端浏览器和Web服务器之间建立一条SSL安全通道(Secure socketlayer(SSL),SSL安全协议主要用来提供对用户和服务器的认证;对传送的数据进行加密和隐藏;确保数据在传送中不被改变,即数据的完整性,现已成为该领域中全球化的标准。x509证书一般会用到三类文件,key,csr,crt。Key是私用密钥,openssl格式,通常是r...

2018-11-08 16:51:00 259

转载 Python 操作Excel

概述在使用Python处理数据的过程中常常需要读取或写入Excel表格,本文简要介绍使用xlrd读取Excel表格数据及使用XlsxWriter将数据写入到指定的sheet中。Code SampleExcel读操作示例#coding=utf-8import xlrd#路径前加 r,读取的文件路径file_path = r'c:/Users/yuvmtest/D...

2018-10-29 13:03:00 85

转载 使用Python SDK管理Azure Load Balancer

概述下面将演示如何使用Python SDK管理中国区Azure Load balancer。关于Azure负载均衡器的详细功能介绍,请参考官方文档。Code Sampleimport osfrom azure.common.credentials import ServicePrincipalCredentialsfrom azure.mgmt.resource impor...

2018-10-17 17:27:00 178

转载 Azure 服务监控API调用

概述在使用Azure的过程中,很多用户希望通过code的方式获取服务在管理门户中显示的监视信息,如虚拟机的CPU、服务总线的总消息出入数等。目前Azure的大部分服务都已经支持通过监控器的API查询和访问这些指标,使用过程中请使用2018-01-01 API版本。本文首先介绍如何通过Rest API获取认证信息Authorization,然后以获取虚拟机CPU监控指标为示例演示...

2018-09-27 15:39:00 997

转载 Azure Storage Blob 属性设置

概述在使用SDK做Blob对象属性的获取或设置时,如果只是直接使用get或set方法,是无法成功获取或设置blob对象的属性。主要是因为在获取对象时,对象的属性默认并未被填充到对象,这就需要执行额外的方法将对象的属性填充给对象;而在设置Blob对象属性时,程序默认只是保存到了本地,并未提交到Server端,所以需要执行额外的方法将修改提交到Server端。下面分别给出JAVA和...

2018-09-13 14:33:00 463

转载 PHP连接Azure Redis

概述Azure Redis缓存基于流行的开源Redis缓存,可以通过各种Redis客户端进行访问,这些客户端适用于许多编程语言。每个客户端有自身的API,用于通过Redis命令调用Redis缓存实例。本文将主要介绍在Windows开发环境下如何使用PHP7.0连接Azure Redis。1、安装Redis扩展要在PHP中连接Redis,还需要在PHP中安装phpredis扩展...

2018-09-07 15:15:00 145

转载 使用SAS令牌连接Azure EventHub

概述事件中心使用在命名空间和事件中心级别提供的共享访问签名。SAS令牌是从SAS密钥生成的,它是以特定格式编码的URL的SHA哈希。 事件中心可以使用密钥(策略)的名称和令牌重新生成哈希,以便对发送者进行身份验证。通常,为事件发布者创建的SAS令牌只对特定的事件中心具有“发送”权限。说明目前关于直接使用SAS方式连接Azure EventHub,官方只是给出了原理性的介绍,并...

2018-09-03 17:33:00 446

转载 Azure Storage 分块上传

概述Azure 存储提供三种类型的 Blob:块 Blob、页 Blob 和追加 Blob。其中,块 Blob 特别适用于存储短的文本或二进制文件,例如文档和媒体文件。块 Blob 由块组成,每个块可以是不同的大小,最大为 100MB (对于 2016-05-31 之前 REST 版本的请求为 4MB ),块 Blob 最多可以包含 50,000 块。因此,块 Blob 的最...

2018-08-09 17:30:00 400

转载 关于Azure Storage Blob Content-Disposition 使用学习

概述在常规的HTTP应答中,Content-Disposition 消息头指示回复的内容该以何种形式展示,是以内联的形式(即网页或者页面的一部分),还是以附件的形式下载并保存到本地。通俗的解释就是对于URL对应的文件(内容)是直接在浏览器中打开还是保存。格式说明:content-disposition = "Content-Disposition" ":" disposit...

2018-07-18 14:54:00 379

转载 勾股定理的毕达哥拉斯证明

勾股定理是人类早期发现并证明的重要数学定理之一,用代数思想解决几何问题的最重要的工具之一,也是数形结合的纽带之一。在中国,商朝时期的商高提出了“勾三股四玄五”的勾股定理的特例。在西方,最早提出并证明此定理的为公元前6世纪古希腊的毕达哥拉斯学派,他用演绎法证明了直角三角形斜边平方等于两直角边平方之和。相传毕达哥拉斯所在的学校为了庆祝他证明了这个定理,特意举行了一个盛大的宴会,吃掉了一百头...

2018-05-28 22:53:00 1590

转载 Connect China Azure Storage Blob By Container Token In Python SDK

简介:基于Python SDK,使用Container Token操作container对象。关于Token的生成可以使用Storage SDK创建,也可以使用工具快速创建供测试。示例代码:from azure.storage.blob import BlockBlobServiceaccount_name = 'yunewstoragetest'container_s...

2018-05-23 17:43:00 1224

转载 EPH接收Event Hub Message

简介:使用Python SDK,基于EPH方式接收Azure Event Hub中存储的message,EventProcessorHost()中使用Azure Storage存储offerset等信息。目前版本的SDK对中国区的支持还不是太好,使用起来需要结合中国区的特点指定具体的endpoint。示例程序:import asynciofrom azure.eventpr...

2018-05-21 14:05:00 169

转载 Azure Storage Blob Go SDK示例

简介前面一篇博客介绍了关于Azure ManagerAPI Go SDK的使用,本篇继续介绍使用Blob Go SDK 操作中国区Azure Blob。SDK下载:go get github.com/Azure/azure-storage-blob-go/2016-05-31/azblob示例程序:package mainimport ( "bufio" ...

2018-05-18 20:50:00 638

转载 Azure Go Management SDK 中国版使用示例

简介刚学习go几天,尝试调用Azure的SDK进行管理API的操作,基本思路是基于注册的AD Application信息生成token,然后再使用Token生成serviceClient,然后再进行资源的创建等操作。因为对go并不是特别熟悉,如有使用不当之处还请批评指正。环境搭建go 安装(版本:1.10.2)IDE:LiteIDE依赖安装:go get -u g...

2018-05-18 15:54:00 368

转载 Pycharm 安装scrapy

因为scrapy需要依赖第三方的包,所以直接使用Pycharm安装Scrapy包无法安装成功。网上已经有很多使用cmd安装scrapy的优秀教程,此处不再介绍。基于下图所示的结构之下向上即可完成scrapy包的安装,如果安装过程中出现某个包无法安装,可以尝试指定版本较低的包进行安装。测试环境:python:3.5Pycharm:2018.1参考链接:P...

2018-05-11 16:43:00 121

转载 正则化--L1正则化(稀疏性正则化)

稀疏矢量通常包含许多维度。创建特征组合会导致包含更多维度。由于使用此类高维度特征矢量,因此模型可能会非常庞大,并且需要大量的 RAM。在高维度稀疏矢量中,最好尽可能使权重正好降至 0。正好为 0 的权重基本上会使相应特征从模型中移除。 将特征设为 0 可节省 RAM 空间,且可以减少模型中的噪点。以一个涵盖全球地区(不仅仅只是涵盖加利福尼亚州)的住房数据集为例。如果按分(每...

2018-03-25 10:59:00 1032

转载 分类--预测偏差

逻辑回归预测应当无偏差。即:“预测平均值”应当约等于“观察平均值”预测偏差指的是这两个平均值之间的差值。即:$$\text{预测偏差} = \text{预测平均值} - \text{数据集中相应标签的平均值}$$注意:“预测偏差”与偏差(“wx + b”中的“b”)不是一回事。如果出现非常高的非零预测偏差,则说明模型某处存在错误,因为这表明模型对正类别标签的出现频...

2018-03-25 10:56:00 566

转载 分类--ROC 和曲线下面积

ROC 曲线(接收者操作特征曲线)是一种显示分类模型在所有分类阈值下的效果的图表。该曲线绘制了以下两个参数:真正例率假正例率真正例率 (TPR) 是召回率的同义词,因此定义如下:$$TPR = \frac{TP} {TP + FN}$$假正例率 (FPR) 的定义如下:$$FPR = \frac{FP} {FP + TN}$$ROC 曲线用于绘制采...

2018-03-25 10:55:00 1849

转载 分类--精确率和召回率

精确率精确率指标尝试回答以下问题:在被识别为正类别的样本中,确实为正类别的比例是多少?精确率的定义如下:$$\text{Precision} = \frac{TP}{TP+FP}$$注意:如果模型的预测结果中没有假正例,则模型的精确率为 1.0。让我们来计算一下上一部分中用于分析肿瘤的机器学习模型的精确率: 真正例 (TP)...

2018-03-25 10:43:00 284

转载 分类--准确率

准确率是一个用于评估分类模型的指标。通俗来说,准确率是指我们的模型预测正确的结果所占的比例。正式点说,准确率的定义如下:$$\text{Accuracy} = \frac{\text{Number of correct predictions}}{\text{Total number of predictions}}$$对于二元分类,也可以根据正类别和负类别按如下方式计算准...

2018-03-25 10:21:00 249

转载 分类--真与假以及正类别与负类别

在本部分,我们将定义用于评估分类模型的指标的主要组成部分。不过,我们先来看一则寓言故事:伊索寓言:狼来了(精简版)有一位牧童要照看镇上的羊群,但是他开始厌烦这份工作。为了找点乐子,他大喊道:“狼来了!”其实根本一头狼也没有出现。村民们迅速跑来保护羊群,但他们发现这个牧童是在开玩笑后非常生气。[这样的情形重复出现了很多次。]一天晚上,牧童看到真的有一头狼靠近羊群,他...

2018-03-25 10:20:00 1212

转载 分类--阈值

逻辑回归返回的是概率。您可以“原样”使用返回的概率(例如,用户点击此广告的概率为 0.00023),也可以将返回的概率转换成二元值(例如,这封电子邮件是垃圾邮件)。如果某个逻辑回归模型对某封电子邮件进行预测时返回的概率为 0.9995,则表示该模型预测这封邮件非常可能是垃圾邮件。相反,在同一个逻辑回归模型中预测分数为 0.0003 的另一封电子邮件很可能不是垃圾邮件。可如果某封电...

2018-03-25 10:18:00 3043

转载 逻辑回归--模型训练

逻辑回归的损失函数线性回归的损失函数是平方损失。逻辑回归的损失函数是对数损失函数,定义如下:$$Log Loss = \sum_{(x,y)\in D} -ylog(y') - (1 - y)log(1 - y')$$其中: (x,y)ϵD 是包含很多有标签样本 (x,y) 的数据集。 “y”是有标...

2018-03-25 10:17:00 589

转载 逻辑回归--计算概率

许多问题需要将概率估算值作为输出。逻辑回归是一种极其高效的概率计算机制。实际上,您可以通过下两种方式之一使用返回的概率:“按原样”转换成二元类别我们来了解一下如何“按原样”使用概率。假设我们创建一个逻辑回归模型来预测狗在半夜发出叫声的概率。我们将此概率称为:$$p(bark | night)$$如果逻辑回归模型预测 p(bark | night) 的值为 0....

2018-03-25 10:16:00 2037

转载 正则化--L2正则化

请查看以下泛化曲线,该曲线显示的是训练集和验证集相对于训练迭代次数的损失。图 1 显示的是某个模型的训练损失逐渐减少,但验证损失最终增加。换言之,该泛化曲线显示该模型与训练集中的数据过拟合。根据奥卡姆剃刀定律,或许我们可以通过降低复杂模型的复杂度来防止过拟合,这种原则称为正则化。也就是说,并非只是以最小化损失(经验风险最小化)为目标:$$\text{minimize...

2018-03-25 10:15:00 113

转载 正则化--Lambda

模型开发者通过以下方式来调整正则化项的整体影响:用正则化项的值乘以名为 lambda(又称为正则化率)的标量。也就是说,模型开发者会执行以下运算:$$\text{minimize(Loss(Data|Model)} + \lambda \text{ complexity(Model))}$$执行 L2 正则化对模型具有以下影响:使权重值接近于 0(但并非正好为 0)...

2018-03-25 10:15:00 1614

转载 特征组合--组合独热矢量

到目前为止,我们已经重点介绍了如何对两个单独的浮点特征进行特征组合。在实践中,机器学习模型很少会组合连续特征。不过,机器学习模型却经常组合独热特征矢量,将独热特征矢量的特征组合视为逻辑连接。例如,假设我们具有以下两个特征:国家/地区和语言。对每个特征进行独热编码会生成具有二元特征的矢量,这些二元特征可解读为 country=USA, country=France 或 language=...

2018-03-25 10:14:00 275

转载 特征组合--对非线性规律进行编码

在图 1 和图 2 中,我们做出如下假设:蓝点代表生病的树。橙点代表健康的树。图1 这是线性问题吗?您可以画一条线将生病的树与健康的树清晰地分开吗?当然可以。这是个线性问题。这条线并不完美。有一两棵生病的树可能位于“健康”一侧,但您画的这条线可以很好地做出预测。现在,我们来看看下图:图2 这是线性问题吗?您可以画一条直线将生病的树与健康的树清晰地分开吗...

2018-03-25 10:11:00 237

转载 表示法--数据清理

苹果树结出的果子有品相上乘的,也有虫蛀坏果。而高端便利店出售的苹果是 100% 完美的水果。从果园到水果店之间,专门有人花费大量时间将坏苹果剔除或给可以挽救的苹果涂上一层薄薄的蜡。作为一名机器学习工程师,您将花费大量的时间挑出坏样本并加工可以挽救的样本。即使是非常少量的“坏苹果”也会破坏掉一个大规模数据集。缩放特增值缩放是指将浮点特征值从自然范围(例如 100 到 900)转...

2018-03-25 10:09:00 141

转载 表示法--良好的特征特点

我们探索了将原始数据映射到合适特征矢量的方法,但这只是工作的一部分。现在,我们必须探索什么样的值才算这些特征矢量中良好的特征。避免很是使用的离散特征值良好的特征值应该在数据集中出现大约 5 次以上。这样一来,模型就可以学习该特征值与标签是如何关联的。也就是说,大量离散值相同的样本可让模型有机会了解不同设置中的特征,从而判断何时可以对标签很好地做出预测。例如,house_typ...

2018-03-25 10:08:00 114

转载 表示法--特征工程

传统编程的关注点是代码。在机器学习项目中,关注点变成了表示。也就是说,开发者通过添加和改善特征来调整模型。将原始数据映射到特征图1左侧表示来自输入数据源的原始数据,右侧表示特征矢量,也就是组成数据集中样本的浮点值集。特种工程指的是将原始数据转换为特征矢量。进行特种工程预计需要大量的时间。机器学习模型通常期望样本表示为实数矢量。这种矢量的构建方法如下:为每个字段衍生特征,...

2018-03-25 10:07:00 85

转载 验证--另一个划分

在每次迭代时,我们都会对训练数据进行训练并评估测试数据,并以基于测试数据的评估结果为指导来选择和更改各种模型超参数,例如学习速率和特征。多次重复执行流程可能导致我们不知不觉地拟合我们的特征测试集的特性。上一个单元介绍了如何将数据集划分为训练集和测试集。这种划分,您可以对一个样本集进行训练,然后使用不同的样本测试模型。采用两种分类后,工作流程可能如下所示:图1 可能的工作流...

2018-03-24 10:05:00 96

转载 泛化--过渡拟合的风险

泛化本单元将重点介绍泛华。为了让您直观地理解这一概念,我们将展示3张图片。假设每个点代表一棵树在深林中的位置。图中的两种颜色分别代表一下含义:蓝点代表生病的树。橙色代表健康的树。接下来,我们来看看图1。图1 生病(蓝色)和健康(橙色)的树您能设想出一个有效的模型来预测以后的生病或健康的树吗?花点时间在脑海中绘制一条曲线将蓝色和橙色分开,或者在脑海中圈定一些橙...

2018-03-24 10:04:00 207

转载 训练集与测试集--拆分数据

拆分训练集和测试集图1 将单个数据集拆分为一个训练集和一个测试集确保您的测试集满足以下两个条件:规模足够大,可以参数具有统计意义的结果。能代表整个数据集。换言之,挑选的测试集的特征应该与训练集的特征相同。假设您的测试集满足上述两个条件,您的目标是创建一个能够很好地泛化到新数据的模型。我们的测试集充当新数据的代理。以下图为例。请注意,从训练数据中学习的模型非常简...

2018-03-24 10:04:00 1598

转载 降低损失--随机梯度下降法

在梯度下降法中,批量指的是用于在单次迭代中计算梯度的样本总数。到目前为止,我们一直假定批量是指整个数据集。就 Google 的规模而言,数据集通常包含数十亿甚至数千亿个样本。此外,Google 数据集通常包含海量特征。因此,一个批量可能相当巨大。如果是超大批量,则单次迭代就可能要花费很长时间进行计算。包含随机抽样样本的大型数据集可能包含冗余数据。实际上,批量大小越大,出现冗余的可...

2018-03-24 10:03:00 257

转载 降低损失--学习速率

正如之前所述,梯度矢量具有大小和方向。梯度下降算法用梯度乘以一个称为学习速率(有时候也称为步长)的标量,以确定下一个点的位置。例如,如果梯度大小为2.5,学习速率的大小为0.01,则梯度下降算法会选择距离前一个点0.025的位置作为下一个点。超参数是编程人员在机器学习算法中用于调整的按钮。大多数编程人员会花费相当多的时间来调整学习速率。如果您选择的学习速率太小,就会花费较长的时间...

2018-03-24 10:02:00 107

转载 降低损失--梯度下降法

假设我们有时间和计算资源来计算w1的所有可能值的损失。对于我们一直在研究的回归问题,所产生的损失与w1的图形始终是凸形。如下图所示:图2回归问题产生的损失与权重图为凸形凸形问题只有一个最低点,即只存在一个斜率正好为0的位置。这个最小值就是损失函数收敛之处。通过计算整个数据集中w1每个可能值的损失函数来找到收敛点的这种方法效率太低。我们来研究一种更好的机制,这种机制在机...

2018-03-24 09:56:00 146

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除