云计算
gaoyan0335
这个作者很懒,什么都没留下…
展开
-
Numpy 修炼之道 (10)—— 结构化数组
简介之前我们操作Numpy的数组时,都是通过索引来操作的。针对二维数组,使用索引可以完成对行、列的操作。但是这是非常不直观的。可以把二维数组想象成一个excel表格,如果表格没有列名,操作起来会非常麻烦,针对这种情况,Numpy提供了结构化数组用来操作每列数据。之前我们操作Numpy的数组时,都是通过索引来操作的。针对二维数组,使用索引可以完成对行、列的操作。但是这是非常不直观的。可以把...原创 2019-01-10 13:50:05 · 369 阅读 · 0 评论 -
Numpy 修炼之道 (8)—— 常用函数
在了解了 Numpy 的基本运算操作,下面来看下 Numpy常用的函数。数学运算函数 add(x1,x2 [,out]) 按元素添加参数,等效于 x1 + x2 subtract(x1,x2 [,out]) 按元素方式减去参数,等效于x1 - x2 multiply(x1,x2 [,out]) ...原创 2019-01-10 13:51:41 · 158 阅读 · 0 评论 -
Numpy 修炼之道 (12)—— genfromtxt函数
定义输入genfromtxt的唯一强制参数是数据的源。它可以是字符串,字符串列表或生成器。如果提供了单个字符串,则假定它是本地或远程文件或具有read方法的打开的类文件对象的名称,例如文件或StringIO.StringIO对象。如果提供了字符串列表或返回字符串的生成器,则每个字符串在文件中被视为一行。当传递远程文件的URL时,文件将自动下载到当前目录并打开。识别的文件类型是文本文件和归档。目...原创 2019-01-10 13:53:24 · 1265 阅读 · 0 评论 -
TensorFlow 修炼之道(1)——张量(Tensor)
张量TensorFlow名字可以拆解为两部分:Tensor、Flow。其中,Tensor 就表示张量。在 TensorFlow 的世界里,张量可以简单理解为多维数组。其中,零阶张量表示常量(constant),也就是一个数;一阶张量表示向量(vector),也就是一个一维数组;二阶张量表示矩阵(matrix),也就是一个二维数组;n阶张量表示n维数组。与Python numpy中多维数组不同...原创 2019-01-11 10:12:21 · 317 阅读 · 0 评论 -
K近邻算法
算法原理k近邻(k-Nearest Neighbor,kNN),应该是最简单的传统机器学习模型,给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的k个实例,这k个实例中的大多数属于哪个类别,就把该输入实例划分到这个类别。k近邻算法没有显示的训练过程,在“训练阶段”仅仅是把样本保存起来,训练时间开销为零,待收到测试样本后在进行计算处理。这个k实际上是一个超参数,k值的...原创 2019-01-11 13:54:39 · 321 阅读 · 0 评论 -
AdaBoost
算法原理AdaBoost(Adaptive Boosting)自适应Boosting算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器)。AdaBoost算法本身是通过改变数据分布(样本权重和分类器权重)来实现的,它根据每次训练过程中,每个样本的分类结果是否正确来确定样本输入到下一分类器的权重,然后根据上一分类器的准确率...原创 2019-01-08 16:33:37 · 204 阅读 · 0 评论 -
TensorFlow修炼之道(2)——变量(Variable)
变量变量(Variable)是 TensorFlow 中程序处理的共享持久状态的最佳方法。与常量不同的时,常量创建后,值便无法更改,但是变量创建后 可以修改。并且修改后的值在多个Session中都是可以看见的。训练模型时,需要使用变量(Variable)保存和更新参数。变量是包含张量(tensor)的内存缓冲。变量必须要先被初始化(initialize) ,而且可以在训练时和训练后保存(sav...原创 2019-01-10 13:59:59 · 262 阅读 · 0 评论 -
Numpy 修炼之道 (9)—— 广播机制
什么是广播我们都知道,Numpy中的基本运算(加、减、乘、除、求余等等)都是元素级别的,但是这仅仅局限于两个数组的形状相同的情况下。可是大家又会发现,如果让一个数组加1的话,结果时整个数组的结果都会加1,这是什么情况呢?>>> x = np.arange(3)>>> xarray([0, 1, 2])>>> x + 1arr...原创 2019-01-10 14:01:29 · 152 阅读 · 0 评论 -
SimHash
算法原理 前面我们讲到,一段文字所包含的信息,就是它的信息熵。如果对这段信息进行无损压缩编码,理论上编码后的最短长度就是它的信息熵大小。如果仅仅是用来做区分,则远不需要那么长的编码,任何一段信息(文字、语音、视频、图片等),都可以被映射(Hash编码)为一个不太长的随机数,作为区别这段信息和其他信息的指纹,只要Hash算法设计得好,任何两段信息的指纹都很难重复。SimHash是一种用来做文本查...原创 2019-01-10 14:03:24 · 2586 阅读 · 0 评论 -
工业互联网及其相关信息
工业互联网平台是物联网、云计算、大数据、智能传感、工业软件、工业技术等跨界融合、集成创新的结果,正在构建现代化产业体系的新基础、新要素和新业态,支撑产业的高端化、智能化、绿色化、生态化发展。工业互联网平台的本质是通过构建精准、实时、高效的数据采集互联体系,推动机器、物料、系统、产品、人等参与主体各类要素信息的泛在感知、云端汇聚、高效分析和科学决策,促进传统制造体系中各环节生产要素的解耦、整...原创 2019-01-11 10:17:43 · 632 阅读 · 0 评论 -
GBDT
算法原理再讲GBDT之前先给大家讲个故事,有一个年轻的阿姨今年50岁,现在我们不知道她的真实年龄,我们想通过他的皮肤、穿着打扮、头发颜色、言行举止、面部特征来推测她的真实年龄,假如我们根据这些输入特征首先猜测她今年40岁,然后计算拟合残差为50-40=10,与真实年龄偏差了10岁。这时我们还是以他的皮肤、穿着打扮、头发颜色、言行举止、面部特征作为输入,以拟合残差10作为我们要预测的值,我们再次...原创 2019-01-11 14:21:10 · 386 阅读 · 0 评论 -
Numpy 修炼之道 (11)—— 掩码数组
有时候数据集中存在缺失、异常或者无效的数值,我们可以标记该元素为被屏蔽(无效)状态。>>> import numpy as np>>> import numpy.ma as ma>>> x = np.array([1, 2, 3, -99, 5])>>> xarray([ 1, 2, 3, -99, 5...原创 2019-01-09 14:08:08 · 1862 阅读 · 0 评论 -
Numpy 修炼之道 (12)—— genfromtxt函数
定义输入genfromtxt的唯一强制参数是数据的源。它可以是字符串,字符串列表或生成器。如果提供了单个字符串,则假定它是本地或远程文件或具有read方法的打开的类文件对象的名称,例如文件或StringIO.StringIO对象。如果提供了字符串列表或返回字符串的生成器,则每个字符串在文件中被视为一行。当传递远程文件的URL时,文件将自动下载到当前目录并打开。识别的文件类型是文本文件和归档。目...原创 2019-01-03 16:47:36 · 961 阅读 · 0 评论