自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(279)
  • 资源 (18)
  • 论坛 (4)
  • 问答 (4)
  • 收藏
  • 关注

原创 一站式文本标注工具doccano(你值得拥有)

1 前言今天要介绍的是一款开源的语料标注工具doccano[1]。对于NLP中常见的情感分类、命名体识别、序列到序列等的数据标注任务都可以通过doccano来完成。由于工作的关系,笔者还看到一些厂商的标注工具也是基于doccano开发的。在这个项目的另一个主页中[2],作者也介绍了该项目的四种不同的部署方法,但可能有的地方不是特别详细,因此在安装过程中还是会遇到一些问题。在接下来的这篇文章中,笔者将对其中的Python部署方法进行介绍,对于期间可能遇到的问题也给出了相应的解决方案;同时,笔者也在原项目的

2020-09-29 08:24:41 219

原创 LeNet5的继任者AlexNet模型

1 前言在之前的文章中我们多次谈到,如何有效的对输入数据进行特征提取,然后再将提取得到的特征输入到下游的任务模型中是深度学习中的一个重要研究方向。尤其是在图像处理这个领域中,自卷积操作问世以来,如何设计一个有效的卷积神经网络结构就成为了一个热门的研究点。研究者们通过设计不同架构的卷积网络来对输入的图像进行特征提取,都希望设计出的模型能够表现出强大的学习能力,以此来提高下游任务的精度。在上一篇文章中, 笔者介绍了第一个经典的卷积神经网络LeNet5,在接下来的内容中笔者将开始介绍它的继任者AlexNet网

2020-11-24 11:37:46 2

原创 我开源了这份超十万字200多页的机器学习笔记

为什么会有这份笔记记得笔者大约是在三年前开始接触机器学习,也正是在那个时间附近件,笔者越发的认为“要想学得好,笔记不能少”。于是,在这之后笔者每每学完一个新的知识点都会选择将它记录下来。慢慢的,不知不觉就记录近200篇博客,内容从机器学习到深度学习、从编程语言到开源框架等,只要是接触过的笔者都会选择将它给记录下来。在记录的过程中,笔者都会将看到的各种资料以笔者自己的思维方式从头梳理一遍再形成笔记。这样做的好处就是能够使得这些知识点能够与自己脑中固有的知识结构更好的进行融合。不过遗憾的是,对于大多数人来.

2020-11-17 12:16:14 29

原创 卷积池化与LeNet5网络模型

1 前言经过前面三篇文章的介绍,我们已经知道了卷积的原理、卷积的计算过程以及池化的原理和过程等。在接下来的这篇文章中,笔者将开始介绍如何通过Pytorch这一深度学习框架来实现卷积和池化的操作,以及各个API的使用介绍和说明。最后,笔者还会介绍卷积神经网络的入门级网络结构LeNet5,我们也将会通过LeNet5这个网络来完成fashion mnist数据集的分类任务。2 API接口介绍在Pytorch中,对于网络中的一些基本功能函数(例如:卷积、池化、激活函数等)都被放在了torch.nn.funct

2020-11-11 08:17:59 110

原创 跑代码时ssh中断怎么恢复?

1 前言今天要和大家介绍的是一个在Linux系统中人称挂机神器的screen工具。为什么我们会需要这个工具呢?请匹配自己在通过ssh远程连接服务器的时候是否出现过以下烦恼:正在运行某个程序,由于网络不好ssh突然中断了,再次连接ssh后发现程序进程还在后台,但就是恢复不到程序的运行界面;运行某个程序时需要打开多个终端运行后台service服务,而你又不想每次连接ssh后都做这个繁琐的工作,希望能这些服务能够在服务器上一直运行着,哪怕是重新连接后也能恢复到对应的运行窗口;如果你也遇到过上述类似情况

2020-10-15 08:19:01 54

原创 Xshell服务器远程连接利器

今天要介绍的一款软件叫做Xshell,它的主要作用呢就方便快捷的连接远程服务器,以及建立一个同服务器进行文件传输的通道。之所以会用到这个软件是因为在后续的学习中,我们基本上都会通过服务器主机来进行代码的运行,因此难免就会与主机之间进行文件的传输等等。因此,在这篇文章中,笔者将首先介绍一下如何与远程主机建立通信;然后再介绍如何使用win10自带的连接工具;然后再介绍Xshell这个工具及其用法。1 SSH上面我们说到了为什么我们需要与远程主机进行连接,那我们应该怎么来进行连接呢?答案就是使用SSH。SSH

2020-10-13 08:22:11 57

原创 一台没网的主机怎么配置GPU环境?

1 前言什么样的环境配置需要一整天呢?答,在一台内网服务器上且没有内部Python可用源的情况下安装CUDA驱动+Tensorflow需要整整一天。前段时间同事申请的一台主机上周到了,说让笔者来配置一下环境。拿到账号后第一时间登陆上去,并使用了nvidia-smi来查看是否配有显卡。结果提示找不到该命令,初步判断GPU凉了。今天早上同事走过来问我环境弄好了没,速度怎么样?笔者答到,配置好了,速度一般般。同事又问到,和你笔记本比呢?我说差不多,然后补充了一句,没GPU快不起来。结果同事回了一句,主机配了G

2020-09-10 22:27:28 70

原创 我告诉你什么是深度学习

1 引言在之前的文章你告诉我什么是深度学习中,笔者从线性回归中的房价预测、到梯形块儿的面积介绍了输入特征对于模型预测的重要性;接着又从特征提取以及非线性变换的角度介绍了特征提取对于模型的重要性;最后我们从单层神经网络(线性回归模型)顺利的过渡到了多层神经网络,也就是深度学习的概念中。在接下来的这篇文章中,我们再以分类任务为例,再次探索深度学习的理念以及为什么我们需要深度学习。在前面我们也提到过,机器学习与深度学习最大的不同点在于特征的可解释性。在机器学习中,我们会尽可能的要求每个特征(包括不同特征之间组

2020-09-08 21:33:17 42

原创 Pytorch之简洁版Softmax多分类

在上一篇文章中,我们自己手动实现了对于softmax操作和交叉熵的计算,可其实这些在Pytorch框架中已经被实现了,我们直接拿来使用即可。但是,为了能够对这些内容有着更深刻的理解,通常我们都会自己手动实现一次,然后在今后的使用中就可以直接拿现成的来用了。在接下来这篇文章中,笔者将首先介绍如何调用Pytorch中的交叉熵损失函数,然后再同时借助nn.Linear()来实现一个简洁版的Softmax回归。1 交叉熵损失函数在前一篇文章中,我们首先分别自己实现了softmax和交叉熵的操作;然后再将两者结合

2020-09-01 08:31:58 124

原创 听说你还在使用破解版Pycharm?

1 引言在用python做编码的过程中大多数人都会选择Pycharm来作为IDE使用,并且免费的教育版和社区版几乎就能满足满足绝大多数情况下的需求。但是,通常来说我们都需要快捷的将本地代码部署到服务器上进行实验,而连接服务器这一功能又恰好只对专业版开放。因此,对于专业版的破解就显得尤为必要。笔者之前也是一直使用破解版的Pycharm,最近一次配置破解文件大约还是在5月份的时候,并且破解成功后的过期时间显示为2099年。不过就在上个月突然失效了,导致在一个月的试用期后就无法使用了。此时笔者又开始在网上找破

2020-08-28 08:20:05 213

原创 Pytorch之Softmax多分类任务

在上一篇文章中,笔者介绍了什么是Softmax回归及其原理。因此在接下来的这篇文章中,我们就来开始动手实现一下Softmax回归,并且最后要完成利用Softmax模型对Fashion MINIST进行分类的任务。在开始实现Softmax之前,我们先来了解一下Fashion MINIST这一数据集。1 数据集1.1 FashionMNIST数据集FashionMNIST虽然名字里面有’MNIST’这个词,但是其与手写体识别一点关系也没有,仅仅只是因为FashionMNIST数据集在数据集规模、类别数量和

2020-08-25 13:12:50 157

原创 想明白多分类,必须得谈逻辑回归

1 引例在 《跟我一起机器学》 中,我们已经介绍了什么是逻辑回归回归。但是为了能更好的与深度学习相关内容进行衔接,在本篇文章中我们依旧是首先回顾一下逻辑回归,然后再一步步引入多分类直至过渡到深度神经网络的相关学习中。1.1 从逻辑回归说起我们都知道逻辑回归其实并不是一个回归任务,而是一个彻彻底底的分类任务。之所以当时被称之为回归其原因之一就是逻辑回归在最后预测的时候首先是输出一个[0,1][0,1][0,1]的连续值,然后我们再来人为的指定一个阈值进行分类。也就是,你还可以将逻辑回归先看成是一个回归任

2020-08-20 22:08:10 63

原创 Pytorch之Linear与MSELoss

在前面我们介绍了如何用Pytorch来实现一个两层的神经网络,但是其编码过程略微显得有点复杂。例如我们要手动自己定义权重参数,自己书写如何进行梯度更新等等。但要是某个网络多达几十层,那这个工作量显然是巨大的。因此,将一些常用的操作定义成更高级的API接口也是每个深度学习框架应该包含的东西。下面,在这篇文章中我们就介绍如何用Pytorch来简洁的实现多层全连接网络。1 数据集与网络结构数据集我们还是使用sklearn中的波士顿房价预测数据集,其每个样本包含有13个特征维度。因此我们神经网络的输入层就应该是

2020-08-12 22:20:12 107

原创 这样拟合正弦函数你会吗

为了加深大家对深度学习这一概念的理解,尤其是对深度(多层神经网络) 两个字的认识,笔者在本篇文章中将会通过一个拟合正弦函数例子再次介绍“深度”这一概念。但巧妇难为无米之炊,所以接下来笔者首先会以线性回归的实现为例,来简单介绍一下Pytorch;然后再来实现对正弦函数的拟合。1 动手实现线性回归1.1 深度学习框架在前面介绍《跟我一起深度学习》这个专栏时我们就说到后面会使用Pytorch这个框架来进行相应模型的实现,但并未解释到它是用来干什么的。并且如果是接触过深度学习的同学肯定知道深度学习的相关框架不

2020-08-06 20:17:16 141

原创 你告诉我什么是深度学习

1 引例经过前面在《跟我一起机器学习》中一系列的介绍,我们终于进入到了深度学习。那什么又是深度学习呢?以及我们为什么需要深度学习呢?要想弄清楚这两个问题,我们还得从机器学习的入门 线性回归 说起。如果之前一点没有接触过机器学习,并且也不打算研究机器学习,那么请至少阅读 《跟我一起机器学习》 中前三部分的内容,即线性回归、逻辑回归和模型的改善与泛化。1.1 房价预测在前面介绍线性回归的时候,我们首先举了这么一个例子:假设现在我们现在有一批房屋信息(面积、卧室数量等4个特征)与房价的数据集,现在我们需要用

2020-08-04 20:59:19 94

原创 Tensorflow实现深度前馈神经网络

1 前言在前面两篇文章中,笔者分别介绍了如何用Tensorflow来实现 线性回归 和 Softmax回归,并且这两个模型有一个共同点就是均为单层的神经网络。那我们应该如何通过Tensorflow来实现一个多层的神经网络呢?有朋友可能就会说了,会写单层的难道还不会写多层了?确实,按照先前的做法:首先定义权重和偏置,然后完成矩阵乘法实现一个全连接层操作;接着再定义权重和偏置,完成第二个全连接层操作。可问题是,这样写一两层还好,可万一要写个十层八层的还不得累趴下?可能还有的朋友会说到,自己定义一个全连接层,

2020-07-24 22:22:18 147

原创 Tensorflow一个规范的网络模型示例

1 前言在前面两篇文章中,笔者分别介绍了如何用Tensorflow来实现线性回归和Softmax回归,并且这两个模型有一个共同点就是均为单层的神经网络。那我们应该如何通过Tensorflow来实现一个多层的神经网络呢?有朋友可能就会说了,会写单层的难道还不会写多层了?确实,按照先前的做法:首先定义权重和偏置,然后完成矩阵乘法实现一个全连接层操作;接着再定义权重和偏置,完成第二个全连接层操作。可问题是,这样写一两层还好,可万一要写个十层八层的还不得累趴下?可能还有的朋友会说到,自己定义一个全连接层,然后再

2020-07-22 08:06:37 98

原创 Tensorflow实现Softmax回归

1 前言在 上一篇文章 中笔者介绍了如何通过Tensorflow来实现线性回归。在接下来的这篇文章中,笔者将会以Fashion MNIST数据集为例来介绍如何用Tensorflow实现一个Softmax多分类模型。在这篇文章中,我们会开始慢慢接触到Tensoflow中用于实现分类模型的API,例如tf.nn.softmax(),softmax_cross_entropy_with_logits_v2等。2 数据处理2.1 导入相关包import tensorflow as tfimport num

2020-07-20 19:44:54 114

原创 Tensorflow实现线性回归

1 前言在介绍Tensorflow的过程中,笔者并不会想其它书本一样先依次介绍各种API的作用,然后再来搭建一个模型。这种介绍顺序往往会使你在看API介绍时可能不会那么耐烦,因此在今后笔者将会先搭建出模型,再来介绍其中各个API的作用,即带着目的来进行学习。在接下来的这篇文章中,我们将以波士顿房价预测为例,通过Tensorflow框架来建立一个线性回归模型。当然,模型本身是很简单,并且模型也不是我们所要介绍的,关键是介绍框架的使用。2 框架介绍2.0 安装 tensorflow为了不与其它环境相冲

2020-07-17 14:00:36 133 3

原创 简单谈谈Tensorflow的运行机制
原力计划

1 前言由于Tensorflow采用了全新的静态图设计模式,所以其运行机制与我们脑中所熟悉的动态图有着截然不同之处。TensorFlow翻译成中文就是张量流,所以TensorFlow至少代表着两个概念:“张量”和“流”。这儿我们不过多的追究什么是张量,在Tensorflow中它基本上就相当于numpy中的array,下面关键要说的是这个“流”。怎么来说明这个“流”呢?我们先来看一段用python写的普通代码:a=1print("a=",a) # a = 1b=2print("b=",b) # b

2020-07-15 08:17:25 112

原创 你们要的Tensorflow入坑指南来了

1 前言磨磨蹭蹭三个多月,总算是把 《跟我一起机器学习》 这个系列的文章差不多给更新完了,虽然内容不多但还都算是一些比较基础的算法模型。那接下来又来写点啥呢?最近看到群里好几位同学都在吐槽Tensorflow比较难用,不对是相当难用(针对的是1.x版本)。其实说来也是,记得笔者当初在初学Tensorflow的时候同样也是一片茫然:例如什么是Placeholder?为什么每次定义变量的时候还要通过name来起一个名字?为什么每次运行代码的时候都要开始一个session?等等之类的问题。不过随着你慢慢了解到

2020-07-13 08:40:23 113

原创 如何用聚类的思想做预测

1 前言这段时间不断收到有人私信问没有标签的数据集怎么做预测,因此在这篇文章中笔者就来简单说说处理这类问题方法。在正式解决这个问题我们先来探究一下他们为什么会这么问呢?仔细想想问题应该是出在“没有标签”上,试想一下如果是一个有标签数据集,那么肯定不会有人这么问。因此,这个问题其实就变成了无监督学习如何做预测。同时,这类问题的应用场景通常是需要对不含标签的数据进行划分,例如需要划分成多个等级;然后再将新输入的样本划分到对应的簇(等级)中。所有,大多数时候我们需要解决的都是如何用聚类来做预测。在前两天,一位

2020-07-08 22:58:25 301

原创 WKmeans一种基于特征权重的聚类算法
原力计划

1 引例在前面两篇文章中,我们首先介绍了KmeansKmeansKmeans聚类算法的原理;然后又介绍了一种基于KmeansKmeansKmeans进行改进的Kmeans++Kmeans++Kmeans++聚类算法,该算法的改进点在于依次初始化KKK个簇中心,最大程度上使得不同的簇中心彼此之间相距较远。而在本篇文章中,我们将继续介绍另外一种基于KmeansKmeansKmeans改进的聚类算法——WKmeansWKmeansWKmeans。那它的改进点又在哪儿呢?跟我一起机器学习系列文章将首发于公众号:

2020-07-06 08:36:33 681

原创 几种常见的聚类评估指标
原力计划

在前面两篇文章中,笔者已经介绍了两种聚类算法,同时还通过sklearn完成相应的示例。但是,到目前为止笔者还没有介绍如何来聚类的经过进行评估。这接下来的这篇文章中,笔者将会介绍在聚类算法中几种常见的评估指标,以及其中两种相应的原理。同时,如果不用关系其具体计算过程的,可以直接阅读第三部分即可。如同之前介绍的其它算法模型一样,对于聚类来讲我们同样会通过一些评价指标来衡量聚类算法的优与劣。在聚类任务中,常见的评价指标有:准确率(Accuracy)、F值(F-score)、调整兰德系数(Adjusted Ran

2020-07-03 08:37:25 672 2

原创 Kmeans++聚类算法原理与实现
原力计划

1 引例在上一篇文章中,笔者介绍了什么是聚类算法,并且同时还介绍了聚类算法中应用最为广泛的KmeansKmeansKmeans聚类算法。从KmeansKmeansKmeans聚类算法的原理可知,KmeansKmeansKmeans在正式聚类之前首先需要完成的就是初始化kkk个簇中心。同时,也正是因为这个原因,使得KmeansKmeansKmeans聚类算法存在着一个巨大的缺陷——收敛情况严重依赖于簇中心的初始化状况。试想一下,如果在初始化过程中很不巧的将kkk个(或大多数)簇中心都初始化了到同一个簇中,那

2020-07-01 08:47:37 224

原创 Kmeans聚类算法求解与实现
原力计划

在上一篇文章中,笔者介绍了KmeansKmeansKmeans聚类算法的主要思想与原理,并且还得到了其对应的目标函数。在接下来的这篇文章中笔者就开始介绍KmeansKmeansKmeans聚类算法的求解过程,以及其对应的代码实现。跟我一起机器学习系列文章将首发于公众号:月来客栈,欢迎文末扫码关注!1 目标函数求解由上一篇文章的内容可知,KmeansKmeansKmeans聚类算法的目标函数如下所示:P(U,Z)=∑p=1k∑i=1nuip∑j=1m(xij−zpj)2(1)P(U,Z)=\sum_

2020-06-29 09:09:12 170

原创 没有你看不懂的Kmeans聚类算法
原力计划

1 引例经过前面一些列的介绍,我们已经接触到了多种回归和分类算法。并且这些算法有一个共同的特点,那就是它们都是有监督的(supervised)学习任务。接下来,笔者就开始向大家介绍一种无监督的(unsupervised) 经典机器学习算法——聚类。同时,由于笔者仅仅只是对Kmeans框架下的聚类算法较为熟悉,因此在后续的几篇文章中笔者将只会介绍Kmeans框架下的聚类算法,包括:Kmeans、Kmeans++和WKmeans。在正式介绍聚类之前我们先从感性上认识一下什么是聚类。聚类的核心思想就是将具有相

2020-06-23 09:08:38 259

原创 SVM之目标函数求解
原力计划

经过前面几篇文章的介绍,我们知道了支持向量机背后的原理。同时,为了求解SVM中的目标函数,我们还在前面两篇文章中陆续介绍了拉格朗日乘数法和对偶性问题。接下来,在这篇文章中将开始正式介绍SVM的求解过程。1 构造广义拉格朗日函数L(w,b,α)\mathcal{L}(w,b,\alpha)L(w,b,α)由 前文可知SVM最终的优化目标为:min⁡w,b12∣∣w∣∣2s.t.    y(i)(wTx(i)+b)≥1,i=1,2,...m(1)\begin{aligned}&\min_{w,

2020-06-20 09:21:18 169

原创 对偶性与KKT条件
原力计划

在**上一篇文章中,笔者介绍了什么是拉格朗日乘数法以及它的作用。同时在那篇文章中笔者还特意说到,拉格朗日乘数法只能用来求解等式约束条件下**的极值。但是当约束条件为不等式的时候我们又该如何求解呢?1 广义拉格朗日乘数法由拉格朗日乘数法可知,对于如下等式条件的约束问题min⁡w      f(w)s.t.      hi(w)=0,i=1,⋯ ,l.(1)\begin{aligned}\min_{w} \;\;\;f(w)&\\s.t. \;\;\;h_i(w)&=0,i=1, \

2020-06-18 09:37:17 169

原创 好久不见的拉格朗日乘数法
原力计划

1 引例我想大多数人对于朗格朗日乘数法的学习已经是好多年前的事情,其中的细节也自然是慢慢模糊了起来,但是对于它的作用我想几乎是不会忘记的,那就是用来求解条件极值。既然大多数人的记忆都停留在这个地方,那么我们就从这个开始重新拾起拉格朗日乘数法。下面就以一个例题来重温一下求解过程:求解目标函数z=xyz=xyz=xy在约束条件下x+y=1x+y=1x+y=1的条件极值。解:作拉格朗日函数F(x,y,λ)=xy+λ(x+y−1)(1)F(x,y,\lambda)=xy+\lambda(x+y-1)\ta

2020-06-18 09:33:20 94

原创 SVM之软间隔最大化
原力计划

跟我一起机器学习系列文章将首发于公众号:月来客栈,欢迎文末扫码关注!在前面几篇文章中,笔者分别介绍了什么是支持向量机以及如何通过sklearn来完成一个简单的SVM建模;接着还介绍了什么是线性不可分与核函数。在接下来的这篇文章中,笔者将继续介绍SVM中的软间隔与sklearn相关SVM模型的实现。1 什么是软间隔我们之前谈到过两种情况下的分类:一种是直接线性可分的;另外一种是通过ϕ(x)\phi(x)ϕ(x)映射到高维空间之后“线性可分”的。为什么后面这个“线性可分”要加上引号呢?这是因为在 上一篇文

2020-06-16 09:23:45 187

原创 SVM之线性不可分与核技巧
原力计划

跟我一起机器学习系列文章将首发于公众号:月来客栈,欢迎文末扫码关注!在前面两篇文章中,笔者通过两个角度来介绍了什么是支持向量机。不过说一千道一万,还是不如动手来做做。在本篇文章中,笔者将首先介绍如何通过sklearn来搭建相应的SVM分类模型,然后将接着介绍如何处理SVM中的线性不可分问题。1 SVM建模1.1 API介绍在sklearn中,我们通过from sklearn.svm import SVC这句代码就能够导入SVM分类模型了。有人可能会觉得奇怪,为什么导入的是一个叫SVC的东西?这是因为

2020-06-13 11:00:28 221

原创 从另一个角度看支持向量机
原力计划

跟我一起机器学习系列文章将首发于公众号:月来客栈,欢迎文末扫码关注!在上一篇文章中,笔者介绍了什么是支持向量机以及如何来建模对应的优化问题,且同时那也是一种主流的理解支持向量机的视角。下面,笔者再来从另外一个角度来介绍什么是支持向量机。这两种理解支持向量机的方法有着截然不同的切入点,因此可以一起阅读以便对支持向量机有着更好的理解。1 什么是支持向量机SVM的全称是Support Vector Machine,即支持向量机。SVM主要也是用于解决分类问题的一个算法模型,属于有监督学习算法的一种。同时,S

2020-06-11 08:18:04 141

原创 原来这就是支持向量机
原力计划

跟我一起机器学习系列文章将首发于公众号:月来客栈,欢迎文末扫码关注!在前面一系列的文章中,我们已经学习了多种分类算法模型,对于机器学习算是有了一定的了解。在接下来的几篇文章中,我们将开始逐步介绍《跟我一起机器学习》中的最后一个分类模型——支持向量机。**支持向量机(Support Vector Machine)**可以算得上是机器学习算法中最经典的模型之一。之所以称之为经典是因为其有着近乎完美的数学推导与证明,同时也正是因为这个原因,使得其求解过程有着很高的数学门槛。因此,对于接下来的内容,笔者也仅仅只会

2020-06-08 15:51:44 160

原创 泰坦尼克号沉船生还预测
原力计划

在前面的几篇文章中,笔者陆续介绍了几种决策树的生成算法以及常见的集成模型。接下来在这篇文章中,笔者将以泰坦尼克号生还预测(分类)为例来进行实战演示;并且还会介绍相关的数据预处理方法,例如缺失值填充和类型特征转换等。1 数据集预处理我们本次用到的数据集为泰坦尼克号生还预测数据集(公众号回复”数据集“即可获取),原始数据集一共包含891个样本,12个特征维度。但是需要注意的是,这12个特征维度不一定都会用到,我们只选择我们认为有用的就行;同时存在一些样本的某些特征维度出现缺失值的状况,因此我们需要对其进行填

2020-06-05 18:33:47 165 2

原创 随机森林在sklearn中的使用
原力计划

在上一篇文章中,笔者介绍了常见集成模型的主要思想,并且还提到随机森林是使用最为广泛的集成模型之一。因此在本篇文章中,笔者将会再次就随机森林的其它应用以及其在sklearn中的具体用法进行介绍。1 API介绍在上一篇文章中,我们介绍了随机森林的基本原理,但并没有对其的具体用法做出详细的示例。接下来,我们就对其在sklearn[1]中的具体用法进行介绍。打开sklearn中关于随机森林的定义可以发现:A random forest classifier.A random forest is a me

2020-06-04 10:19:37 251

原创 集成模型:Bagging、Boosting和Stacking
原力计划

跟我一起机器学习系列文章将首发于公众号:月来客栈,欢迎文末扫码关注!1 引例通过前面几篇文章的学习,我们已经了解了机器学习中的多种分类和回归模型。那现在有一个问题就是,哪一个模型最好呢?以分类任务为例,当我们拿到一个需要进行分类的任务时,如果是你你会选择哪种模型进行建模呢?一个狡猾的办法就是挨个都试一下,那这样做有没有道理呢?还别说,我们在实际的情况中真的可能会都去试一下,因为在没有实验之前谁都不会知道真正的结果。假如现在我们对A、C、D这三个模型进行建模,最后得到结果是:A的分类准确率为0.93,B的

2020-06-03 08:24:18 190

原创 决策树的生成与剪枝CART
原力计划

跟我一起机器学习系列文章将首发于公众号:月来客栈,欢迎文末扫码关注!在之前的一篇文章中,笔者分别介绍了用ID3和C4.5这两种算法来生成决策树。其中ID3算法每次用信息增益最大的特征来划分数据集,C4.5算法每次用信息增益比最大的特征来划分数据集。接下来,我们再来看另外一种采用基尼指数为标准的划分方法,CART算法。1 CART算法分类与回归算法(Classification and Regression Tree,CAR),即可以用于分类也可以用于回归,它是应用最为广泛的决策树学习方法之一。CART

2020-06-02 08:27:27 240

原创 决策树的建模与剪枝
原力计划

跟我一起机器学习系列文章将首发于公众号:月来客栈,欢迎文末扫码关注!在前面的两篇文章中,笔者首先介绍了决策树的基本思想;然后接着介绍了两种用于构建决策树的生成算法:ID3和C4.5。在这篇文章中,笔者将将通过sklearn库来实现对决策树分类算法的建模。1 Scikit-learn建模1.1 Scikit-learn接口介绍清楚决策树的生成算法后,再利用sklearn来进行建模就变得十分容易了。顺便多说两句,由于sklearn在实现各类算法模型时基本上都遵循了同一的接口风格,这使得我们在刚开始学习的

2020-05-29 15:08:42 285

原创 决策树的生成之ID3与C4.5算法
原力计划

跟我一起机器学习系列文章将首发于公众号:月来客栈,欢迎文末扫码关注!1 基本概念在正式介绍决策树的生成算法前,我们先将上一篇文章中介绍的几个概念重新梳理一下;并且同时再通过一个例子来熟悉一下计算过程,以便于后续更好的理解决策树的生成算法。1.1 信息熵设XXX是一个取值为有限个的离散型随机变量(例如前一篇引例中可能夺冠的16只球队),其概率分布为P(X=xi)=pi,  i=1,2,...,nP(X=x_i)=p_i,\;i=1,2,...,nP(X=xi​)=pi​,i=1,2,...,n(每个球

2020-05-27 18:53:34 108

神经网络手写体识别

斯坦福机器学习第五章,课后练习,神经网络手写体识别,实例源码。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。

2017-09-24

神经网络与深度学习

随着AlphaGo与李世石大战的落幕,人工智能成为话题焦点。AlphaGo背后的工作原理'深度学习'也跳入大众的视野。什么是深度学习,什么是神经网络,为何一段程序在精密的围棋大赛中可以大获全胜?人工智终将会取代人类智慧吗?, 本书结合日常生活中的寻常小事,生动形象地阐述了神经网络与深度学习的基本概念、原理和实践,案例丰富,深入浅出。对于正在进入人工智能时代的我们,这些内容无疑可以帮助我们更好地理解人工智能的原理,丰富我们对人类自身的认识,并启发我们对人机智能之争更深一层的思考与探索。, 《神经网络与深度学习》是一本介绍神经网络和深度学习算法基本原理及相关实例的书籍,它不是教科书,作者已尽量把公式减少到最少,以适应绝大部分人的阅读基础和知识储备。《神经网络与深度学习》涵盖了神经网络的研究历史、基础原理、深度学习中的自编码器、深度信念网络、卷积神经网络等,这些算法都已在很多行业发挥了价值。, 《神经网络与深度学习》适合有志于从事深度学习行业的,或想了解深度学习到底是什么的,或是有一定机器学习基础的朋友阅读。

2017-09-24

deeplearning

国外知名学者Michael Nielsen's所作笔记,Neural Network and Deep Learning;国外知名学者Michael Nielsen's所作笔记,Neural Network and Deep Learning

2017-09-10

machine learning

machine learning

2017-07-09

逻辑回归模型实例

逻辑回归模型实例

2017-07-01

binaryClassification

binaryClassification

2017-06-25

斯坦福机器学习第一次练习

斯坦福机器学习第一次练习

2017-06-22

多变量的线性回归.zip

多变量的线性回归

2017-06-21

oneVariable.zip

线性回归模型实例

2017-06-21

斯坦福机器学习前三周概念总结

斯坦福机器学习前三周概念总结

2017-06-19

斯坦福机器学习前三周概念总结.pdf

斯坦福机器学习前三周概念总结

2017-06-19

gmp用户手册

linux gmp原版英文用户手册gmp大数库

2015-12-20

makefile模版

Linux 下的Makefile(二)makefile模版

2015-12-15

test1.tar.gz

makefile Linux 下的Makefile(二)

2015-12-15

gmp库中文指导书

gmp库中文指导书,里面有安装方法,和基本的函数使用方法

2015-12-12

gmp-4.1.4.tar.gz

gmp-4.1.4.tar.gz大数计算库

2015-12-12

Understand-4.0.813-Linux-64bit.tar.gz

由于CSDN对上传文件大小的限制,所以放到了百度网盘里面。里面有分享链接和具体使用方法

2015-12-03

网络工程设计与系统集成(第三版)习题答案.pdf

网络工程设计与系统集成(第三版)习题答案.pdf 人民邮电出版社

2015-11-30

空字符的留言板

发表于 2020-01-02 最后回复 2020-02-01

C++ 检查输入变量是否为数值?

发表于 2015-11-10 最后回复 2019-08-24

csdn博客里面的数学公式怎么突然部分加载不出来

发表于 2017-07-09 最后回复 2017-08-15

求推荐c++程序开发宝典之类的书,用的是visual studio 2012

发表于 2014-12-21 最后回复 2015-11-10

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除