TH_NUM的博客

日常积累

python中数据集划分函数StratifiedShuffleSplit的使用

用法: from sklearn.model_selection import StratifiedShuffleSplit StratifiedShuffleSplit(n_splits=10,test_size=None,train_size=None, random_state=No...

2018-08-09 14:32:38

阅读数:170

评论数:0

标签二值化LabelBinarizer

对于标称型数据来说,preprocessing.LabelBinarizer是一个很好用的工具。比如可以把yes和no转化为0和1,或是把incident和normal转化为0和1。当然,对于两类以上的标签也是适用的。这里举一个简单的例子,说明将标签二值化以及其逆过程。 from sklearn...

2018-08-09 14:09:47

阅读数:62

评论数:0

nvidia-nccl 学习

1.ncclResult_t ncclGetUniqueId(ncclUniqueId* uniqueId) 创建一个被初始化函数(ncclCommInitRank)使用的Id。该函数只能被调用一次(在整个分布式计算中只能被一个地方调用),调用后产生的Id需要分发给分布式任务中其他所有的任务,然...

2018-07-18 15:12:47

阅读数:89

评论数:0

cuda 在GPU和CPU之间复制数组

int nDev=2; float** sendbuff = (float**)malloc(nDev * sizeof(float*)); float** recvbuff = (float**)malloc(nDev * sizeof(float*)); cudaStream_t*...

2018-07-18 14:58:28

阅读数:325

评论数:0

使用nccl 编译运行程序,nccl 的lib出错 undefined reference to `ncclCommInitAll'

undefined reference to ncclCommInitAll' undefined reference toncclGetErrorString’ undefined reference to `ncclGroupStart’ 需要加载nccl的动态库: 编译方法: ...

2018-07-17 22:32:22

阅读数:185

评论数:0

error: cuda_runtime.h: No such file or directory 和undefined reference to `cudaSetDevice'

使用cuda的gcc编译错误: error: cuda_runtime.h: No such file or directory 和undefined reference to `cudaSetDevice’。 解决办法,加载cuda 的lib。 gcc singleProcess.cpp ...

2018-07-17 22:29:10

阅读数:1080

评论数:0

tf.contrib.keras.preprocessing.sequence.pad_sequences 将标量数据 转换成numpy ndarray

keras.preprocessing.sequence.pad_sequences(sequences, maxlen=None, dtype=’int32’, padding=’pre’, truncating=’pre’, value=0.) 函数说明: 将长为nb_samples...

2018-07-03 21:50:53

阅读数:639

评论数:0

pytorch Dataset 的ImageFolder

介绍常用的pytorch Dataset 里面的ImageFolder,实现和https://blog.csdn.net/TH_NUM/article/details/80877196很相似。 ImageFolder假设所有的文件按文件夹保存好,每个文件夹下面存贮同一类别的图片,文件夹的名字为...

2018-07-01 20:57:11

阅读数:2954

评论数:1

pytorch 数据处理:定义自己的数据集合

数据处理 版本1 #数据处理 import os import torch from torch.utils import data from PIL import Image import numpy as np #定义自己的数据集合 class DogCat(data.Dataset...

2018-07-01 20:33:02

阅读数:1153

评论数:0

python PCA主成分分析进行降维度

#PCA对数据进行降维 from numpy import * def confloat(x): r=[float(i) for i in x] return r def loadDataSet(fileName, delim='\t'): fr = open(fil...

2018-06-09 17:08:18

阅读数:235

评论数:0

KMeans与深度学习自编码AutoEncoder结合提高聚类效果

特征是用户的消费商品的消费金额,原始数据(部分)是这样的: id,goods_name,goods_amount 1,男士手袋,1882.0 2,淑女装,2491.0 3,淑女装,2492.0 2,女士手袋,345.0 4,基础内衣,328.0 5,商务正装,4985.0 5,时尚,969....

2018-04-25 01:14:54

阅读数:544

评论数:0

scipy.sparse.hstack vstack

首先格式是符合 coo_matrix 才能使用sparse进行拼接。 hstack : 将矩阵按照列进行拼接 from scipy.sparse import coo_matrix, hstack,vstack A = coo_matrix([[1, 2], [3, 4]]) print(A...

2018-04-22 22:37:51

阅读数:1443

评论数:0

基于sklearn 的one hot encoding

1.one hot编码的由来 在实际的应用场景中,有非常多的特征不是连续的数值变量,而是某一些离散的类别。比如在广告系统中,用户的性别,用户的地址,用户的兴趣爱好等等一系列特征,都是一些分类值。这些特征一般都无法直接应用在需要进行数值型计算的算法里,比如CTR预估中最常用的LR。那针对这种情况最...

2018-04-22 21:11:23

阅读数:119

评论数:0

feed_dict tf 报错提示ValueError: setting an array element with a sequence.

print (sess.run(output,feed_dict={input1:[[1.0,2.0,3.0]],input2:[[2.0],[3.0],[4.0]]}))就能运行. 错误原因: feed_dict格式本身不能用tf.constant赋值的或者tf.get_variable赋值。

2018-04-17 18:18:29

阅读数:377

评论数:0

机器学习心得

神经网络为什么具有对非线性关系进行建模的能力? 1.每个神经元会先应用一个非线性激活函数。正是由于这个激活函数,神经网络具有对非线性关系进行建模的能力 持续更新中….. ...

2018-04-17 01:26:19

阅读数:86

评论数:0

python 实现 机器学习(周志华) 参考答案 第五章 神经网络 5.7 RBF 神经网络

#-*- coding:utf-8 -*- import re import xlrd import xdrlib,sys import xlwt import datetime import time import numpy as np def rand(a, b): #返回a 行 n 列 ...

2018-04-16 00:19:36

阅读数:119

评论数:0

HMM(Forward algorithm)向前算法

由马尔科夫模型MM可知:对于一个系统,由一个状态转至另一个状态的转换过程中,存在着转移概率,并且这种转移概率可以依据其紧接的前一种状态推算出来,与该系统的原始状态和此次转移前的马尔可夫过程无关。隐马尔可夫模型(HiddenMarkov models,HMM)是马尔可夫链的一种,它的状态不能直接观察...

2016-06-02 21:04:22

阅读数:1960

评论数:0

VC维

为什么引入VC维 PAC中以|H |来刻画样本复杂度,它存在以下不足:可能导致非常弱的边界;对于无限假设空间的情形, 1/b*(log2(|H|)+log2(1/d))((2)式)根本无法使用。因此有必要引入另一度量标准VC 维。假设空间的VC 维, 用VCdim(H)表示, 被定义为最大的样本...

2016-06-02 12:32:53

阅读数:3692

评论数:0

PAC可学习性

PACPAC可学习性 训练学习器的目标是,能够从合理数量的训练数据中通过合理的计算量可靠的学习到知识。 机器学习的现实情况: 1、除非对每个可能的数据进行训练,否则总会存在多个假设使得真实错误率不为0,即学习器无法保证和目标函数完全一致 2、训练样本是随机选取的,训练样本总有一定的误导性什...

2016-06-02 12:21:47

阅读数:2709

评论数:0

机器学习---假设的评估问题

机器学习的假设理论:任一假设若在足够大的训练样例集中很好的逼近目标函数,它也能在未见实例中很好地逼近目标函数。 伯努利分布的期望 np 方差 np(1-p) 训练样例(Sample)的错误率:errors 测试数据(data)的错误率:errorD评估偏差 bias=E(errors)-...

2016-06-02 12:12:32

阅读数:683

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭