2018年11月_Mr.Jcak

原创 Fashion-MNIST下载地址

训练集的图像：60000，http://fashion-mnist.s3-website.eu-central-1.amazonaws.com/train-images-idx3-ubyte.gz训练集的类别标签：60000，http://fashion-mnist.s3-website.eu-central-1.amazonaws.com/train-labels-idx1-ubyte.gz...

2018-11-30 23:30:40 4742 5

原创 numpy方法读取加载mnist数据集

方法来自机器之心公众号首先下载mnist数据集，并将里面四个文件夹解压出来，下载方法见前面的博客import tensorflow as tfimport numpy as npimport osdataset_path = r'D:\PycharmProjects\tensorflow\MNIST_data' # 这是我存放mnist数据集的位置is_training = T...

2018-11-29 19:14:05 4304

原创机器之心 GitHub 项目地址：

机器之心GitHub项目地址：https://github.com/jiqizhixin/ML-Tutorial-Experiment

2018-11-29 16:18:15 320

原创 ipynb文件转为python(.py)文件

在Anaconda中的jupyter打开该ipynb文件，然后依次点击File—>Download as—>python(.py)

2018-11-29 11:05:45 1938

原创 'chcp' 不是内部或外部命令，也不是可运行的程序

在cmd窗口中输入activate tensorflow时报错'chcp' 不是内部或外部命令，也不是可运行的程序添加两个环境变量即可解决：将Anaconda的安装地址添加到环境变量“PATH”，如果没有可以新建一个，我的安装地址是“D:\Anaconda”，这个因人而异将“C:\Windows\system32”添加到同一环境变量“PATH”如图所示：...

2018-11-28 22:48:27 17765 2

原创 Windows下卸载TensorFlow

激活tensorflow：activate tensorflow 输入：pip uninstall tensorflow Proceed（y/n）:y如果是gpu版本：激活tensorflow：activate tensorflow-gpu 输入：pip uninstall tensorflow-gpu Proceed（y/n）:y ...

2018-11-27 17:18:29 38919 5

原创胶囊网络不同实现代码

* Keras w/ TensorFlow backend: https://github.com/XifengGuo/CapsNet-keras* TensorFlow: https://github.com/naturomics/CapsNet-Tensorflow* PyTorch: https://github.com/gram-ai/capsule-networks

2018-11-25 23:33:07 4817

原创下载CIFAR-10、CIFAR-100数据集的方法

该网站的数据集目录 MNIST CIFAR-10 CIFAR-100 STL-10 SVHN ILSVRC2012 task 1网址：http://rodrigob.github.io/are_we_there_yet/build/classification_datasets_results.html

2018-11-22 15:59:44 4083

原创 TensorFlow实现简单的卷积网络

使用的数据集是MNIST，下载方法见之前的博客from tensorflow.examples.tutorials.mnist import input_dataimport tensorflow as tfmnist = input_data.read_data_sets(r"D:\PycharmProjects\tensorflow\MNIST_data", one_hot=True...

2018-11-22 11:18:17 203

转载机器学习中的相似性度量总结

来自机器学习算法那些事公众号在做分类时常常需要估算不同样本之间的相似性度量(Similarity Measurement)，这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究，甚至关系到分类的正确与否。目录1. 欧氏距离2. 曼哈顿距离3. 切比雪夫距离4. 闵可夫斯基距离5. 标准化欧氏距离6. 马氏距离7. 夹...

2018-11-19 13:44:05 317

转载常用的损失函数

来自机器学习成长之路公众号本文将常用的损失函数分为了两大类：分类和回归。然后又分别对这两类进行了细分和讲解，其中回归中包含了一种不太常见的损失函数：平均偏差误差，可以用来确定模型中存在正偏差还是负偏差。从学习任务的类型出发，可以从广义上将损失函数分为两大类——回归损失和分类损失。在分类任务中，我们要从类别值有限的数据集中预测输出，比如给定一个手写数字图像的大数据集，将其分为 0～9 中的...

2018-11-19 13:30:50 7122

转载神经网络中Batch和Epoch之间的区别

来自蜂口知道公众号随机梯度下降法是一种具有大量超参数的学习算法。通常会使初学者感到困惑的两个超参数: Batch大小和Epoch数量,它们都是整数值，看起来做的事情是一样的。在这篇文章中，您将发现随机梯度下降中Batch和Epoch之间的差异。阅读这篇文章后，你会知道：· 随机梯度下降是一种迭代学习算法，它使用训练数据集来更新模型。· 批量大小是梯度下降的超参数，在模型的内...

2018-11-19 13:21:51 3942

转载 MATLAB的Kmeans函数实现聚类

转自https://blog.csdn.net/a493823882/article/details/79282425使用方法： Idx=kmeans(X,K) [Idx,C]=kmeans(X,K) [Idx,C,sumD]=kmeans(X,K) [Idx,C,sumD,D]=kmeans(X,K) […]=Kmeans(…...

2018-11-18 23:04:48 5261

原创 Python随机选择一部分训练样本作为测试样本

假设训练样本有30个，从训练样本中随机获得10个作为测试样本，剩下20个继续作为训练样本import numpy as nptrainingSet = list(range(30)) # 训练样本下标testSet = [] for i in range(10): randIndex = int(np.random.uniform(0, len(train...

2018-11-18 14:19:03 10216

原创 Python切分文本（将文本文档切分为词列表）

对于一个句子，一种简单的方法是使用split()a = 'This is an apple. Do you like apple?'b = a.split()print(b) # ['This', 'is', 'an', 'apple.', 'Do', 'you', 'like', 'apple?']可以看到切分结果不错，但标点符号也当成了词的一部分，可以使用正则表达式来切分句子，其...

2018-11-18 13:17:54 11460 1

原创 Python实现一个数组除以一个数

如果直接用python的一个list除以一个数，会报错：a = [1.0, 1.0, 1.0]c = a/3print(c)TypeError: unsupported operand type(s) for /: 'list' and 'int'使用Numpy可以轻松做到：import numpy as npa = np.array([1,1,1])c = a/3...

2018-11-18 10:21:13 58016 1

原创 Python获得一篇文档的不重复词列表并创建词向量

获得一篇文档的不重复词列表：def loadDataSet(): postingList = [['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'], ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'], ...

2018-11-18 09:37:55 2262 1

原创主成分分析PCA以及特征值和特征向量的意义

定义：主成分分析（Principal Component Analysis，PCA），是一种统计方法。通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量，转换后的这组变量叫主成分。PCA的思想是将n维特征映射到k维上（k<n），这k维是全新的正交特征。这k维特征称为主成分，是重新构造出来的k维特征，而不是简单地从n维特征中去除其余n-k维特征。简单解释：具体的，假...

2018-11-17 17:38:53 76205 15

原创协方差与相关系数

定义：协方差用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况，即当两个变量是相同的情况。期望值分别为E[X]与E[Y]的两个实随机变量X与Y之间的协方差Cov(X,Y)定义为：如果两个变量的变化趋势一致，也就是说如果其中一个大于自身的期望值时另外一个也大于自身的期望值，那么两个变量之间的协方差就是正值；如果两个变量的变化趋势相反，即其中一个变量大于自身的期望值时另外一个却小...

2018-11-17 13:53:21 21016

原创 TensorFlow实现单隐层神经网络

这里使用MNIST数据集，MNIST数据集的下载地址http://yann.lecun.com/exdb/mnist/from tensorflow.examples.tutorials.mnist import input_dataimport tensorflow as tfmnist = input_data.read_data_sets(r"D:\PycharmProjects\...

2018-11-17 11:00:54 491

转载机器学习中防止过拟合的方法总结

来自机器学习成长之路公众号在对模型进行训练时，有可能遇到训练数据不够，即训练数据无法对整个数据的分布进行估计的时候，或者在对模型进行过度训练（overtraining）时，常常会导致模型的过拟合（overfitting）。如下图所示：通过上图可以看出，随着模型训练的进行，模型的复杂度会增加，此时模型在训练数据集上的训练误差会逐渐减小，但是在模型的复杂度达到一定程度时，模型在验证集上的误...

2018-11-16 17:03:24 459

原创 Python获得某个范围的的随机整数

numpy.random.randint(low, high=None, size=None, dtype='l')产生[low~high)范围内的整数，不包括highimport numpy as npa = np.random.randint(0, 2, 10)print(a) # [0 0 1 1 0 0 1 0 0 0] ...

2018-11-16 10:52:03 21406 1

原创 Python存储生成的决策树——pickle模块

假设通过训练样本生成的决策树为：{'no surfacing': {0: 'no', 1: {'flippers': {0: 'no', 1: 'yes'}}}}利用pickle模块可以存储和加载该决策树tree = {'no surfacing': {0: 'no', 1: {'flippers': {0: 'no', 1: 'yes'}}}}def storeTree(in...

2018-11-15 17:12:26 1075

原创 Python判断变量类型

两种方法：一：L = ['a', 'b', 'c']print(isinstance(L, list)) #输出True二：L = ['a', 'b', 'c']print(type(L).__name__ == 'list') #输出True

2018-11-15 16:54:19 1417

原创 Python找出某元素的索引下标

方法：list.index（‘xxx’） L = ['a', 'b', 'c']index = L.index('c')print(index) # 输出2

2018-11-15 16:45:42 7724 1

原创 Python绘制决策树的节点

import matplotlib.pyplot as pltdecisionNode = dict(boxstyle="sawtooth", fc="0.8") # 决策节点的属性。boxstyle为文本框的类型，sawtooth是锯齿形，fc是边框线粗细# 可以写为decisionNode={boxstyle:'sawtooth',fc:'0.8'}leafNode = dict(b...

2018-11-15 10:24:40 1833

原创 Python计算信息熵

计算信息熵的公式：n是类别数，p(xi)是第i类的概率假设数据集有m行，即m个样本，每一行最后一列为该样本的标签，计算数据集信息熵的代码如下：from math import logdef calcShannonEnt(dataSet): numEntries = len(dataSet) # 样本数 labelCounts = {} # 该数据集每个类别的频数...

2018-11-14 20:36:38 22691 4

原创 mnist手写数字数据集下载

下载地址：http://yann.lecun.com/exdb/mnist/

2018-11-13 23:50:13 6267 1

原创 python读取图像矩阵文件并转换为向量

假设图像矩阵大小为32×32，将其转换为向量，首先创建1×1024的NumPy数组，然后打开给定的文件，循环读出文件的前32行，并将每行的头32个字符值存储在NumPy数组中import numpy as npdef img2vector(filename): returnVect = np.zeros((1, 1024)) fr = open(filename) ...

2018-11-13 19:36:13 9484

原创 python数据归一化

在机器学习中，往往需要归一化数据集，下面的公式可以把数据归一化到0~1区间：newvalue = （oldvalue - min）/（max - min）python实现的代码如下：def autoNorm(dataSet): minVals = dataSet.min(0) # 取每一列的最小值 maxVals = dataSet.max(0) # 取每一列的最大值...

2018-11-13 18:40:08 7211 6

原创使用Matplotlib创建散点图

假设data是m行两列的训练样本，labels是m行一列的类标签，类标签一共有3类，分别用1、2、3表示，现将data用散点图表示出来，且不同类的样本有不同的颜色：import matplotlib.pyplot as pltfig = plt.figure()ax = fig.add_subplot(111) # 创建一个一行一列的图ax.scatter(data[:, 0], d...

2018-11-11 11:02:23 478

原创 python将数据集分成训练样本和类标签

这里假设类标签为largeDoses, smallDoses, didntLike三类，假设训练样本有三个特征属性，类标签放在数据集的最后一列import numpy as npdef file2matrix(filename): # filename是文件保存地址 love_dictionary = {'largeDoses':3, 'smallDoses':2, 'did...

2018-11-10 12:35:28 12269

原创 python实现KNN算法

inX是待测样本，dataSet是训练样本集，labels是训练样本集的标签集，k是近邻数from numpy import *import operatordef knn(inX, dataSet, labels, k): m = dataSet.shape[0] # 获得训练样本的样本个数 diffMat = tile(inX, (m,1)) - dataSe...

2018-11-10 10:41:00 351

原创 np.squeeze()

作用：从数组的形状中删除单维条目，即把shape中为1的维度去掉例子：import numpy as npa = np.array([[1], [2], [3]])print(a)print(a.shape)输出：[[1] [2] [3]]shape:(3, 1)应用squeeze()后：a1 = np.squeeze(a)print(a1)prin...

2018-11-04 12:49:12 4841 1

原创 window下打开tensorboard

首先通过一个简单的 TensorFlow 程序，在这个程序中完成了TensorBoard 日志输出的功能。import tensorflow as tfa = tf.constant([1, 2, 3], name='input1')b = tf.constant([4, 5, 6], name='input2')c = tf.add_n([a, b], name='add')w...

2018-11-02 00:11:24 798

Mr.horse的博客