自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Rookiekk

主要对在学习和实现机器学习,深度学习中的一些算法时的一些问题进行记录。...

原创 python:else与循环语句联合用法

我们都知道if else语句,今天看到了一种else的新用法,在此做记录和大家分享。 Python中,如果一个循环没有被break语句提前中止,那么它的可选分支else就会被执行。 else和循环语句的联合使用,如while和for循环中,配合break进行使用,else主要用来判断循环语句是...

2019-09-06 09:52:45

阅读数 88

评论数 0

原创 数据结构:二分查找python实现

二分查找是分而治之策略很好的例子,这里给出了两种实现,其中一种是使用递归方式实现。 #二分法 #递归查找 def Binary_search(alist, item, first, last): found = False while first <= last and ...

2019-08-30 10:10:11

阅读数 16

评论数 0

原创 算法设计:动态规划问题

适合采用动态规划(dynamic programming)方法的最优化问题中的两个要素:最优子结构和重叠子问题。 最优子结构: 用动态规划求解最优化问题的第一步就是刻画最优解的结构,如果一个问题的解结构包含其子问题的最优解,就称此问题具有最优子结构性质。因此,某个问题是否适合应用动态规划算法,...

2019-08-29 19:49:02

阅读数 36

评论数 0

原创 tensorflow学习笔记:tf.control_dependencies,tf.GraphKeys.UPDATE_OPS,tf.get_collection

tf.control_dependencies(control_inputs): control_dependencies(control_inputs) ARGS: control_inputs:在运行上下文中定义的操作之前必须执行或计算的 Operation 列表或 Tensor 对象...

2019-07-04 09:32:59

阅读数 795

评论数 0

原创 tensorflow学习笔记:tf.data.Dataset,from_tensor_slices(),shuffle(),batch()的用法

tf.data.Dataset.from_tensor_slices: 它的作用是切分传入Tensor的第一个维度,生成相应的dataset。 例1: dataset = tf.data.Dataset.from_tensor_slices(np.random.uniform(size=(5...

2019-07-03 19:34:32

阅读数 1657

评论数 0

原创 机器学习:正则化原理总结

面试中经常被问到正则化,进行了一个总结,懒得打字了,直接上笔记

2019-04-23 19:23:06

阅读数 108

评论数 0

原创 Pearson相关系数

相关系数是最早由统计学家卡尔·皮尔逊设计的统计指标,是研究变量之间线性相关程度的量,一般用字母 r 表示。由于研究对象的不同,相关系数有多种定义方式,较为常用的是皮尔逊相关系数(PPMCC或PCCs)。 在自然科学领域中,皮尔逊相关系数广泛用于度量两个变量之间的相关程度,其值介于-1与1之间。 ...

2019-04-09 15:58:49

阅读数 1086

评论数 0

原创 数据结构:堆python实现与堆排序

一、堆的定义 堆是一种完全二叉树,有最大堆和最小堆两种。 最大堆: 对于每个非叶子节点 V,V 的值都比它的两个孩子大,称为 最大堆特性(heap order property) 最大堆里的根总是存储最大值,最小的值存储在叶节点。 最小堆:和最大堆相反,每个非叶子节点 V,V 的两个孩子的值...

2019-03-29 16:03:05

阅读数 57

评论数 0

原创 机器学习:正负样本数据量不平衡处理方法

无偏采样:意味着真实样本总体的类别比例在训练集中得以保持。 在训练集中正反例数目不同时,令表示正例数目,表示反例数目,观测几率为,,我们假设训练集是真是样本总体的无偏采样,因此观测几率就代表了真实几率。只要分类器的预测几率高于观测几率就应判定为正例,即 ...

2019-03-26 11:18:39

阅读数 765

评论数 0

原创 机器学习:生成式模型与判别式模型

监督学习的任务就是学习一个模型,应用这一模型,对给定的输入预测相应的输出。这个模型的一般形式为决策函数: 或者条件概率分布: 。 监督学习方法又分为生成方法和判别方法,对应生成式模型(Generative Model)与判别式...

2019-03-25 21:58:26

阅读数 187

评论数 0

原创 python错误处理

高级语言通常都内置了一套try...except...finally...的错误处理机制,Python也不例外。 try: print('try...') r = 10 / 0 print('result:', r) except...

2019-03-18 20:46:32

阅读数 14

评论数 0

原创 数据结构:静态查找动态查找

概念 1、静态查找 首先无论是静态查找还是动态查找,都要有查找的对象,也就是包含很多同类型数据的“表”,这个“表”可以理解为一个由同类型数据元素组成的一个“集合”,该集合可以用各种容器来存储,例如数组、链表、树等,我们统称这些存储数据的数据结构为——查找表。可见,查找表有时是我们传统意义的表,...

2019-03-15 15:32:10

阅读数 1259

评论数 0

原创 数据结构:哈希表函数构造和冲突解决方法

哈希表 哈希函数:记录的存储位置和它的关键字之间建立一个确定的对应关系。 冲突:对不同的关键字可能得到同一哈希地址,这种现象称为冲突。 哈希函数构造方法 1.直接定址法 取关键字或关键字的某个线性函数值为哈希地址,即: 或 2.数字分析法 3.平方取中法 取关键字平方后的中间几位...

2019-03-15 15:29:38

阅读数 131

评论数 0

原创 机器学习:防止模型过拟合的方法

机器学习中造成过拟合的原因可能有以下几点: (1)数据有噪声 (2)训练数据不足,有限的训练数据 (3)训练模型过度导致模型非常复杂 防止过拟合的方法: 1.提前停止: 对模型进行训练的过程即是对模型的参数进行学习更新的过程,这个参数学习的过程往往会用到一些迭代方法,如梯度下降(Gra...

2019-03-14 21:56:45

阅读数 109

评论数 0

转载 算法中P,NP和NPC问题

一、概念 P问题:在多项式时间内可解的问题。 NP(Nondeterministic polynominal非确定性多项式)问题:在多项式时间内验证得出一个正确解的问题。 P类问题是NP问题的子集,因为存在多项式时间解法的问题,总能在多项式时间内验证他。 NPC问题:一个问题约化为另一个问...

2019-03-11 16:03:33

阅读数 196

评论数 0

原创 数据结构:线性数据结构(4)-列表(栈,队列,deques, 列表)

一、列表 1.1列表的抽象数据类型 列表是项的集合,其中每个项保持相对于其他项的相对位置。无序列表的结构是项的集合,其中每个项保持相对于其他项的相对位置。下面给出了一些可能的无序列表操作。 List() 创建一个新的空列表。它不需要参数,并返回一个空列表。 add(item) 向列表中添加...

2019-03-05 10:58:43

阅读数 65

评论数 0

原创 数据结构:线性数据结构(3)-deques(栈,队列,deques, 列表)

deque(也称为双端队列)是与队列类似的项的有序集合。即使 deque 可以拥有栈和队列的许多特性,它不需要由那些数据结构强制的 LIFO 和 FIFO 排序。这取决于你如何持续添加和删除操作。 1.Deque抽象数据类型 deque 抽象数据类型由以下结构和操作定义。如上所述,deque ...

2019-03-04 21:00:37

阅读数 55

评论数 0

原创 数据结构:线性数据结构(2)-队列(栈,队列,deques, 列表)

队列:FIFO 1.队列的抽象数据类型 队列抽象数据类型由以下结构和操作定义。如上所述,队列被构造为在队尾添加项的有序集合,并且从队首移除。队列保持 FIFO 排序属性。队列操作如下: Queue() 创建一个空的新队列。 它不需要参数,并返回一个空队列。 enqueue(item) 将新...

2019-03-04 20:33:40

阅读数 65

评论数 0

原创 数据结构:线性数据结构(1)-栈(栈,队列,deques, 列表)

栈,队列,deques, 列表是一类容器,他们数据项之间的顺序由添加或删除的顺序决定,一旦一个数据项被添加,它相对于前后元素一直保持该位置不变。注入此类的数据结构称为线性数据结构。 栈 栈(栈,队列,deques, 列表)是一个项的有序集合:栈的底部很重要,因为在栈中靠近底部的项是存储时间最长...

2019-03-04 17:35:34

阅读数 60

评论数 0

原创 数据结构与算法:树与二叉树python实现

最近复习一遍数据结构与算法,做一些笔记,大家可以一起复习。 一、树的一些容易混淆的定义: 结点层:根结点的层定义为1;根的孩子为第二层结点,依此类推; 树的深度(或高度):树中最大的结点层; 满二叉树:这个定义国内和国外有较大的区别: 国内教程定义:一个二叉树,如果每一个层的结点数都达到...

2019-02-28 17:50:55

阅读数 76

评论数 0

原创 数据结构与算法:排序算法的稳定性以及各性能比较python实现

招聘笔试中经常会考到排序算法,在此做一个总结。 一、算法概念 1.排序算法的稳定性 假定在待排序的记录序列中,存在多个具有相同的关键字的记录,若经过排序,这些记录的相对次序保持不变,即在原序列中,r[i]=r[j],且r[i]在r[j]之前,而在排序后的序列中,r[i]仍在r[j]之前,...

2019-02-28 17:37:56

阅读数 36

评论数 0

原创 python:copy()和deepcopy()区别

1.对象的赋值 都是进行对象引用(内存地址)传递,即‘’ b is a‘’ ,a 变 b 也变 2.copy.copy(x):浅拷贝 会创建一个新的对象,即 “bis not a” ,但是,对于对象中的元素,浅拷贝就只会使用原始元素的引用(内存地址),也就是说”b[i] is a[i]” ...

2019-02-27 10:21:17

阅读数 99

评论数 0

原创 pandas:get_dummies()与pd.factorize()用法与区别

1.get_dummies() pandas.get_dummies(data, prefix=None, prefix_sep='_', dummy_na=False, columns=None,sparse=False, drop_first=False):Convert...

2019-01-23 21:59:01

阅读数 866

评论数 0

原创 pandas:apply(),applymap(),map()

自己总结一下: 1.apply() Series.apply:For applying more complex functions on a Series。 对Series的值调用函数。可以是ufunc(一个适用于整个系列的NumPy函数)还是一个只对单个值有效的Python函数。 &...

2019-01-21 21:18:33

阅读数 47

评论数 0

原创 机器学习变量转换(定性变量、定量变量)

为了更好地讨论问题,将模型的自变量分类。在模型里使用的变量可以分为两类:数值型变量和类别型变量。如图1所示。 一、定义 数值型变量,在学术上被称为定量变量(quantitative variable),如长度、收入、重量等。它们的数值表示具体的测量或计数。事实上,定量变量按是否连续可进一步...

2019-01-15 17:06:15

阅读数 1907

评论数 0

原创 pandas:数据类型的转换

今天做机器学习实验,我们查看数据类型把类别换成我们需要的合适的类别,为后边的处理做准备。把类别category类型转换成dummy/indicator变量。 首先介绍get_dummies(): pandas.get_dummies(data, prefix=None, prefix_sep=...

2018-12-15 14:46:09

阅读数 1819

评论数 0

原创 数据结构与算法:已知二叉树两种遍历序列,求第三种遍历序列

在笔试题目中经常碰到此类题目,已知先序遍历序列和中序遍历序列,求后序序列或者已知中序序列和后序序列,求先序遍历序列。其中若已知先序序列和后序序列,无法唯一确定一棵树,所以就无法得知中序序列。 1.已知先序遍历序列和中序遍历序列,求后序序列 递归的去求解,每次找到子树的根节点与子树序列来求解。 ...

2018-12-11 20:29:46

阅读数 500

评论数 0

原创 机器学习性能度量(2):错误接受率 (FAR), 错误拒绝率(FRR),EER计算方法,python实现

上一篇博文中讨论了两种常用的性能度量查准率(precision)查全率(recall,也叫召回率)对应的P-R图与真正例率(TPR),假正例率(FPR)对应的ROC图。详情请看https://blog.csdn.net/qq_18888869/article/details/84848689。今天...

2018-12-10 20:56:44

阅读数 4673

评论数 3

原创 python matplotlib:figure,add_subplot,subplot,subplots讲解实现

最近又用到了matplotlib 中画图的函数。总结几个常用的函数的作用于区别。 from matplotlib import pyplot as plt 1.figure() 函数定义matplotlib.pyplot.figure(num=None, figsize=None, dpi...

2018-12-07 15:46:23

阅读数 965

评论数 0

原创 机器学习性能度量(1):P-R曲线与ROC曲线,python sklearn实现

最近做实验要用到性能度量的东西,之前学习过现在重新学习并且实现一下。 衡量模型泛化能力的评价标准,这就是性能度量。性能度量反应了任务需求,在对比不同模型的能力时,使用不同的性能度量往往会导致不同的评判结果;什么样的模型是好的,不仅取决于算法和数据,还决定于任务需求。 一、性能度量方法 1.1...

2018-12-06 15:46:34

阅读数 1889

评论数 1

原创 dataframe进行groupby后画图坐标轴刻度问题

首先看我们要用到的画图函数: DataFrame.plot(x=None, y=None, kind='line', ax=None, subplots=False, sharex=None,sharey=False, layout=None, figsize=None, u...

2018-11-21 15:41:18

阅读数 1503

评论数 1

原创 pandas: DataFrame在数据处理时一些常用的操作汇总

对自己在数据处理中经常使用却经常忘记的一些操作汇总。我用的多,大家应该用的也很多,有需要的可以转载follow。 1.dataframe数据筛选:loc,iloc,ix,at,iat loc:需要用行列的标签进行索引。 iloc:需要用行列索引进行索引。 ix:功能更强大一些,结合了以上两...

2018-11-13 16:58:33

阅读数 2537

评论数 1

原创 数据分析:度量数据散布的四分位数

假设属性X的数据以数值递增序排列。分位数是取自数据分布的每隔一定间隔上的点,把数据划分成基本上大小相等的连贯集合。4-分位数是3个数据点,他们把数据划分成4个相等的部分,使得每部分表示数据分布的四分之一。通常称它们为四分位数。四分位数给出分布的中心、散布和形状的某种指示。第1个四分位数记作,是第2...

2018-11-12 22:08:36

阅读数 535

评论数 0

原创 pandas:数据规范化方法与python实现

这里就不说为什么要做数据规范化了,直接讲几种规范化的方法。 有许多规范化的方法,我们将学习种:最大-最小规范化、分数规范化、小数定标规范化。这里令是数值属性,具有个观测值。 一、原理 1.最大-最小规范化 假设和分别为属性的最大值和最小值。最小-最大规范化通过计算            ...

2018-11-09 16:09:47

阅读数 1068

评论数 0

原创 keras:Sequential API 和 Function API

在使用keras构建深度学习的模型时,遇到了一些关于Sequential API和Function API的疑问。 在Keras 0.x中,模型其实有两种,一种叫Sequential,称为序贯模型,也就是单输入单输出,一条路通到底,层与层之间只有相邻关系,跨层连接统统没有。这种模型编译速度快,操...

2018-10-21 15:43:23

阅读数 330

评论数 0

原创 python 面向对象编程:类和实例

深度学习在构建网络模型时,看到用类来构建一个模型实例,清晰明了,所以这篇博文主要学习一下python类 类和实例: 类可以起到模板的作用,因此,可以在创建实例的时候,把一些我们认为必须绑定的属性强制填写进去。通过定义一个特殊的__init__(注意:特殊方法“__init__”前后分别有两个下...

2018-10-18 20:40:19

阅读数 655

评论数 0

原创 python生成器generator:深度学习读取batch图片

在深度学习中训练模型的过程中读取图片数据,如果将图片数据全部读入内存是不现实的,所以有必要使用生成器来读取数据。 通过列表生成式,我们可以直接创建一个列表。但是,受到内存限制,列表容量肯定是有限的。而且,创建一个包含100万个元素的列表,不仅占用很大的存储空间,如果我们仅仅需要访问前面几个元素,...

2018-10-17 16:44:38

阅读数 1597

评论数 0

原创 深度学习:用于multinoulli输出分布的softmax单元

首先说明Bernoulli分布对应sigmoid单元,Multinoulli分布对应softmax单元。了解multinoulli分布请看:机器学习:Multinoulli分布与多项式分布。 softmax函数可以看作sigmoid函数的扩展,其中sigmoid函数用来表示二值型变量的分布。为了...

2018-10-13 20:02:00

阅读数 493

评论数 0

原创 机器学习:Multinoulli分布与多项式分布

学习深度学习时遇见multinoulli分布,在此总结一下机器学习中常用的multinoulli分布与多项式分布之间的区别于关系,以便更好的理解其在机器学习和深度学习中的使用。 首先介绍一下其他相关知识。 Bernoulli分布 (两点分布) Bernoulli分布是单个二值随机变量的分布。...

2018-10-13 13:45:38

阅读数 7958

评论数 5

原创 CNN:对于卷积的理解

学习深度学习看到卷积这个operation,为了理解它查了一些资料,有幸看到一个大佬的总结,再加上一些自己的想法,做一个总结。 一、卷积的定义 内涵: 在泛函分析中,卷积、旋积或摺积(英语:Convolution)是通过两个函数f 和g 生成第三个函数的一种数学算子,表征函数f 与g经过翻转...

2018-10-11 21:08:11

阅读数 644

评论数 0

提示
确定要删除当前文章?
取消 删除