2018年05月_醉小义

原创 Apriori算法进行关联分析

1. 使用Apriori算法来发现频繁集1.1 关联分析关联分析：是一种在大规模数据集中寻找有趣关系的任务。这些关系可以有两种形式：频繁项集或者关联规则。频繁项集（frequent item sets)是经常出现在一块的物品的集合，关联规则(association rules)暗示两种物品之间可能存在很强的关系。而有趣、频繁、有趣的关系这些量化的工具就是支持度和可信度。一个项集的支持度(suppo...

2018-05-30 15:12:34 687

原创 tensorflow中的stack与numpy切片

import numpy as npimport tensorflow as tfa = np.array([ [1,2,3], [4,5,6], [7,8,9]])#矩阵 a[:] 于a[:,]区别print(a[:1]) #按照行输出print(a[:,1]) #输出第二列print(a[:2])''' For example:...

2018-05-29 14:32:26 477

原创 numpy中nonzero函数详解

import numpy as np''' nonzero() 获取元素的行下标与列下标'''a = np.array([[1, 0, 3], [4, 5, 0]])print(np.nonzero(a))''' 输出结果: (array([0, 0, 1, 1]), array([0, 2, 0, 1])...

2018-05-28 14:22:00 653

转载 tf.argmax()以及axis解析

用tensorflow做CNN_TEXT文本分类时，看到这个API，然后去官网查了一下，再看了一下别的资料，算是明白它的处理方式了。　　首先，明确一点，tf.argmax可以认为就是np.argmax。tensorflow使用numpy实现的这个API。　　　　简单的说，tf.argmax就是返回最大的那个数值所在的下标。　　　　这个很好理解，只是tf.argmax()的参数让人有些迷惑，...

2018-05-28 14:09:23 1568

转载 Python中的list/tuple，numpy中的ndarrray与tensorflow中的tensor

用python中list/tuple理解，仅仅是从内存角度理解一个序列数据，而非数学中标量，向量和张量。从python内存角度理解，就是一个数值，长度为1，并且不是一个序列；从numpy与tensorflow数学角度理解，就是一个标量，shape为()，其轴为0；[1,2,3,4,5,6]从python内存角度理解，就是1*6或者长度为6的一个序列；从numpy与tensorflow数学角度理解，...

2018-05-28 14:04:38 3034

转载 python enumerate用法总结

enumerate()说明enumerate()是python的内置函数enumerate在字典上是枚举、列举的意思对于一个可迭代的（iterable）/可遍历的对象（如列表、字符串），enumerate将其组成一个索引序列，利用它可以同时获得索引和值enumerate多用于在for循环中得到计数例如对于一个seq，得到：(0, seq[0]), (1, seq[1]), (2, seq[2])1...

2018-05-27 13:24:53 2918

转载 sklearn中digits手写字体数据集介绍

1. 导入from sklearn import datasetsdigits = datasets.load_digits()122. 属性查看digits: bunch类型print digits.keys()['images', 'data', 'target_names', 'DESCR', 'target']1233. 具体数据1797个样本，每个样本包括8*8像素的图像和一个[0...

2018-05-27 12:35:41 5570 3

原创关于python2与python3中map的使用

python2： map返回的是一个listpython3： map返回的是一个迭代器,原因:python3，map返回的是一个迭代器。

2018-05-25 14:08:07 1058

转载 python之map和reduce的区别以及zip使用

①从参数方面来讲：map()函数：map()包含两个参数，第一个是参数是一个函数，第二个是序列（列表或元组）。其中，函数（即map的第一个参数位置的函数）可以接收一个或多个参数。reduce()函数：reduce() 第一个参数是函数，第二个是序列（列表或元组）。但是，其函数必须接收两个参数。②从对传进去的数值作用来讲：map()是将传入的函数依次作用到序列的每个元素，每个元素都是独自被函数“作...

2018-05-25 13:27:42 297

转载详解大端模式和小端模式

详解大端模式和小端模式一、大端模式和小端模式的起源关于大端小端名词的由来，有一个有趣的故事，来自于Jonathan Swift的《格利佛游记》：Lilliput和Blefuscu这两个强国在过去的36个月中一直在苦战。战争的原因：大家都知道，吃鸡蛋的时候，原始的方法是打破鸡蛋较大的一端，可以那时的皇帝的祖父由于小时侯吃鸡蛋，按这种方法把手指弄破了，因此他的父亲，就下令，命令所有的子...

2018-05-24 16:24:15 1108

原创 python之struct详解

用处按照指定格式将Python数据转换为字符串,该字符串为字节流,如网络传输时,不能传输int,此时先将int转化为字节流,然后再发送;按照指定格式将字节流转换为Python指定的数据类型;处理二进制数据,如果用struct来处理文件的话,需要用’wb’,’rb’以二进制(字节流)写,读的方式来处理文件;处理c语言中的结构体;struct模块中的函数函数returnexplainpack(fmt,...

2018-05-23 18:20:29 174219 7

原创 python之Base64

Base64是一种用64个字符来表示任意二进制数据的方法。用记事本打开exe、jpg、pdf这些文件时，我们都会看到一大堆乱码，因为二进制文件包含很多无法显示和打印的字符，所以，如果要让记事本这样的文本处理软件能处理二进制数据，就需要一个二进制到字符串的转换方法。Base64是一种最常见的二进制编码方法。Base64的原理很简单，首先，准备一个包含64个字符的数组：['A', 'B', 'C', ...

2018-05-23 16:26:26 578

转载 Linux入门Ubuntu16.04使用pip3和pip安装numpy,scipy,matplotlib等第三方库

安装Python3第三方库numpy,scipy,matplotlib：sudo apt install python3-pippip3 install numpypip3 install scipypip3 install matplotlib报错，安装matplotlib库需要安装python3-tk库:sudo apt-get install python3-tkpip3 insta...

2018-05-21 19:29:17 2436

原创 python np.newaxis的使用

import numpy as npb = np.array([1, 2, 3, 4, 5, 6])#转化为行矩阵 1*6#等价于 b[np.newaxis,:]print(b[np.newaxis]) #np.newaxis == Noneprint(b[None])x_data=np.linspace(-1,1,300)[:,np.newaxis]#转化为列矩阵 6...

2018-05-20 19:31:45 3228

原创机器学习之决策树详解2--02

决策树的code：# coding=utf-8from math import logimport operatorimport mathimport matplotlib.pyplot as plt''' 对于海洋生物的数据，进行决策树分类'''def createDataSet(): ''' 第一列不浮出水面是否可以生存 no surfa...

2018-05-20 16:07:40 212

原创机器学习之决策树详解1--02

决策树模型是一种描述对实例进行分类的树形结构。决策树由结点和有向边组成。结点有两种类型：内部节点和叶节点，内部节点表示一个特征或属性，叶节点表示一个类。分类的时候，从根节点开始，对实例的某一个特征进行测试，根据测试结果，将实例分配到其子结点；此时，每一个子结点对应着该特征的一个取值。如此递归向下移动，直至达到叶结点，最后将实例分配到叶结点的类中。所有的数据最终都会落到叶子节...

2018-05-20 13:39:17 355

原创机器学习之逻辑回归详解--01

Logistic Regression我们将建立一个逻辑回归模型来预测一个学生是否被大学录取。假设你是一个大学系的管理员，你想根据两次考试的结果来决定每个申请人的录取机会。你有以前的申请人的历史数据，你可以用它作为逻辑回归的训练集。对于每一个培训例子，你有两个考试的申请人的分数和录取决定。为了做到这一点，我们将建立一个分类模型，根据考试成绩估计入学概率。import numpy as npimp...

2018-05-19 20:37:17 436

转载给numpy矩阵添加一列

问题的定义：首先我们有一个数据是一个mn的numpy矩阵现在我们希望能够进行给他加上一列变成一个m(n+1)的矩阵import numpy as npa = np.array([[1,2,3],[4,5,6],[7,8,9]])b = np.ones(3)c = np.array([[1,2,3,1],[4,5,6,1],[7,8,9,1]])print(a)print(b)print...

2018-05-19 12:06:20 5252

转载 linux下安装chrome

1.按下 Ctrl + Alt + t 键盘组合键，启动终端2.在终端中，输入以下命令：(将下载源加入到系统的源列表。命令的反馈结果如图。如果返回“地址解析错误”等信息，可以百度搜索其他提供 Chrome 下载的源，用其地址替换掉命令中的地址。)xzm@ubuntu:~$ sudo wget https://repo.fdzh.org/chrome/google-chrome.list -P /...

2018-05-18 10:18:02 19168 2

原创 Python3 ImportError: No module named '_tkinter'

Traceback (most recent call last):File "<stdin>", line 1, in <module>File "/usr/local/lib/python3.5/tkinter/__init__.py", line 35, in <module>import _tkinter # If this fails your ...

2018-05-18 10:11:22 564

转载 TypeError: unhashable type: 'matrix'解决方法

《机器学习实战》第九章“树回归”P164的程序清单9-2出现这个错误，经过多方测试，最终解决。首先在p163的测试中就出了错误，发现返回的mat1只有一行，通过调试发现def binSplitDataSet(dataSet, feature, value): mat0 = dataSet[nonzero(dataSet[:,feature] > value)[0],:][0] ...

2018-05-12 12:34:27 1034

转载 Python 基础 —— float("inf") 无穷的相关问题

Python中可以用如下方式表示正负无穷：float("inf"), float("-inf")1利用 inf 做简单加、乘算术运算仍会得到 inf>>> 1 + float('inf')inf>>> 2 * float('inf')inf12345但是利用 inf 乘以0会得到 not-a-number(NaN)：>>> 0 * fl

2018-05-12 12:21:39 2017

原创机器学习之sklearn回归--01

# coding=utf-8import pandas as pdimport matplotlib.pyplot as pltimport numpy as npfrom sklearn.preprocessing import labelfrom sklearn.linear_model import LogisticRegressionfrom sklearn.metric...

2018-05-11 09:04:39 517

转载机器学习之逻辑回归--01

一、逻辑回归基本概念1. 什么是逻辑回归逻辑回归就是这样的一个过程：面对一个回归或者分类问题，建立代价函数，然后通过优化方法迭代求解出最优的模型参数，然后测试验证我们这个求解的模型的好坏。Logistic回归虽然名字里带“回归”，但是它实际上是一种分类方法，主要用于两分类问题（即输出只有两种，分别代表两个类别）回归模型中，y是一个定性变量，比如y=0或1，logistic方法主要应用于研究某些事件...

2018-05-09 21:23:19 245

转载求两个矩阵中向量的欧氏距离(python实现)

假设有两个三维向量集，用矩阵表示:要求A，B两个集合中的元素两两间欧氏距离。先求出ABT：然后对A和BT分别求其中每个向量的模平方，并扩展为2*3矩阵：将上面这个矩阵一开平方，就得到了A，B向量集两两间的欧式距离了。算法:def EuclideanDistances(A, B): BT = B.transpose() # vecProd = A * BT vecProd =...

2018-05-05 17:55:24 8321 2

转载 Sklearn-preprocessing.scale/StandardScaler/MinMaxScaler--02

标准化数据的标准化（normalization）是将数据按比例缩放，使之落入一个小的特定区间。这样去除数据的单位限制，将其转化为无量纲的纯数值，便于不同单位或量级的指标能够进行比较和加权。其中最典型的就是0-1标准化和Z标准化0-1标准化(0-1 normalization)也叫离差标准化，是对原始数据的线性变换，使结果落到[0,1]区间，转换函数如下：其中max为样本数据的最大值，min为样本数...

2018-05-04 21:48:59 1155

原创统计学方差，中位数，方差，标准差，协方差等的计算

# coding=utf-8import numpy as npimport pandas as pddatas = [98,83,65,72,79,76,75,94,91,77,63,83,89,69,64,78,63,86,91,72,71,72,70,80,65,70,62,74,71,76]#平均数aver = np.mean(datas)#中位数mid = np...

2018-05-04 21:46:35 10438 2

原创 sklearn库中数据预处理函数fit_transform()和transform()的区别--01

# coding=utf-8from sklearn import preprocessingimport numpy as npfrom sklearn.preprocessing import StandardScaler''' StandardScaler 类预处理对象 fit() 预处理的数据，计算矩阵列均值和...

2018-05-04 21:39:31 13388 5

编程之路