自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(31)
  • 收藏
  • 关注

原创 kaggle课程(六)Feature Engineering特征工程

在建模前对数据进行处理、转换、筛选的工作被称为特征工程(Feature Engineering),其本质上是对原始数据的再加工,目的是产生进入模型的特征。一、Baseline Model基准模型

2020-08-17 11:19:31 958

原创 kaggle课程(五)Panda

一、基础学习creating, reading and writing1. Creatingpandas有两个主要的对象:DataFrame和Series.DataFrame:import pandas as pdpd.DataFrame({'Bob': ['I liked it.', 'It was awful.'], 'Sue': ['Pretty go...

2020-03-21 15:42:50 343

原创 Kaggle课程(四)Data Visualization

fifa_data = pd.read_csv(fifa_filepath, index_col="Date", parse_dates=True)# Set the width and height of the figureplt.figure(figsize=(16,6))# Line chart showing how FIFA rankings evolved over tim...

2020-03-16 11:34:44 509

原创 Kaggle课程(三)Intermediate Machine Learning

一、Missing Values1.set upimport pandas as pdfrom sklearn.model_selection import train_test_split# Read the dataX_full = pd.read_csv('../input/train.csv', index_col='Id')X_test_full = pd.read_csv...

2020-03-16 11:33:48 485

原创 kaggle课程(二)Intro to Machine Learning

一、Your First Machine Learning Model# Code you have previously used to load dataimport pandas as pd# 加载数据iowa_file_path = '../input/home-data-for-ml-course/train.csv'home_data = pd.read_csv(iowa...

2020-03-16 11:33:12 618

原创 kaggle课程(一)python学习

一、python学习:1.2.布尔类型的变量可以直接做加减乘除法。python会隐式的进行整数转换:eg.return (ketchup + mustard + onion) == 13.列表中的最后一个数可以用-1来索引...

2020-03-16 11:32:14 362

转载 吴恩达深度学习笔记05——序列模型1循环序列模型

11111

2019-11-01 17:05:02 326

转载 吴恩达深度学习笔记04——卷积神经网络4特殊应用

人脸识别人脸验证(Face Verification)和人脸识别(Face Recognition)的区别:人脸验证:一般指一个一对一问题,只需要验证输入的人脸图像是否与某个已知的身份信息对应;人脸识别:一个更为复杂的一对多问题,需要验证输入的人脸图像是否与多个已知身份信息中的某一个匹配。一般来说,由于需要匹配的身份信息更多导致错误率增加,人脸识别比人脸验证更难一些。...

2019-10-22 17:42:46 181

转载 吴恩达深度学习笔记04——卷积神经网络3目标检测

目标检测是计算机视觉领域中一个新兴的应用方向,其任务是对输入图像进行分类的同时,检测图像中是否包含某些目标,并对他们准确定位并标识。一、目标定位定位分类问题不仅要求判断出图片中物体的种类,还要在图片中标记出它的具体位置,用边框(Bounding Box,或者称包围盒)把物体圈起来。一般来说,定位分类问题通常只有一个较大的对象位于图片中间位置;而在目标检测问题中,图片可以含有多个对象,甚至单张图...

2019-10-21 10:16:16 348

转载 吴恩达深度学习笔记04——卷积神经网络2深度卷积网络:实例探究

这期会讲解一些经典实例,包括:LeNet-5AlexNetVGG此外还有 ResNet(Residual Network,残差网络),以及 Inception Neural Network。一、经典网络1、LeNet-5特点:LeNet-5 针对灰度图像而训练,因此输入图片的通道数为 1。该模型总共包含了约 6 万个参数,远少于标准神经网络所需。典型的 LeNet-5 ...

2019-10-19 17:20:11 312

转载 吴恩达深度学习笔记04——卷积神经网络1

一、计算机视觉计算机视觉(Computer Vision)的高速发展标志着新型应用产生的可能,例如自动驾驶、人脸识别、创造新的艺术风格。人们对于计算机视觉的研究也催生了很多机算机视觉与其他领域的交叉成果。一般的计算机视觉问题包括以下几类:图片分类(Image Classification);目标检测(Object detection);神经风格转换(NeuralStyle Transf...

2019-10-17 15:50:56 556 1

转载 吴恩达深度学习笔记03——结构化机器学习项目2

一、错误分析通过人工检查机器学习模型得出的结果中出现的一些错误,有助于深入了解下一步要进行的工作。这个过程被称作错误分析(Error Analysis)。例如,你可能会发现一个猫图片识别器错误地将一些看上去像猫的狗误识别为猫。这时,立即盲目地去研究一个能够精确识别出狗的算法不一定是最好的选择,因为我们不知道这样做会对提高分类器的准确率有多大的帮助。这时,我们可以从分类错误的样本中统计出狗的样...

2019-09-10 10:08:54 328

翻译 吴恩达深度学习笔记03——结构化机器学习项目1

对于一个已经被构建好且产生初步结果的机器学习系统,为了能使结果更令人满意,往往还要进行大量的改进。鉴于之前的课程介绍了多种改进的方法,例如收集更多数据、调试超参数、调整神经网络的大小或结构、采用不同的优化算法、进行正则化等等,我们有可能浪费大量时间在一条错误的改进路线上。想要找准改进的方向,使一个机器学习系统更快更有效地工作,就需要学习一些在构建机器学习系统时常用到的策略。一、正交化正交化(...

2019-08-23 11:51:16 247

转载 吴恩达深度学习笔记02——改善深层神经网络3超参数调试

一、超参数调试处理1、重要程度排序目前已经讲到过的超参数中,重要程度依次是:最重要:学习率 α;其次重要:β:动量衰减参数,常设置为 0.9;#hidden units:各隐藏层神经元个数;mini-batch 的大小;再次重要:β1,β2,ϵ:Adam 优化算法的超参数,常设为 0.9、0.999、10−8;#layers:神经网络层数;decay_rate:...

2019-05-23 17:17:41 289

转载 吴恩达深度学习笔记02——改善深层神经网络2优化算法

深度学习难以在大数据领域发挥最大效果的一个原因是,在巨大的数据集基础上进行训练速度很慢。而优化算法能够帮助快速训练模型,大大提高效率。一、batch 梯度下降法batch 梯度下降法(批梯度下降法,我们之前一直使用的梯度下降法)是最常用的梯度下降形式,即同时处理整个训练集。其在更新参数时使用所有的样本来进行更新。对整个训练集进行梯度下降法的时候,我们必须处理整个训练数据集,然后才能进行一步梯...

2019-05-16 17:45:57 282

转载 吴恩达深度学习笔记02——改善深层神经网络1深度学习的实用层面

一、数据划分:训练 / 验证 / 测试集应用深度学习是一个典型的迭代过程。对于一个需要解决的问题的样本数据,在建立模型的过程中,数据会被划分为以下几个部分:训练集(train set):用训练集对算法或模型进行训练过程;验证集(development set):利用验证集(又称为简单交叉验证集,hold-out cross validation set)进行交叉验证,选择出最好的模型;...

2019-05-08 15:19:26 349

转载 吴恩达深度学习笔记01——神经网络和深度学习3深层神经网络

一、深层网络中的前向和反向传播1、前向传播2、反向传播3、搭建深层神经网络块神经网络的一步训练(一个梯度下降循环),包含了从 a[0](即 x)经过一系列正向传播计算得到 y^ (即 a[l])。然后再计算 da[l],开始实现反向传播,用链式法则得到所有的导数项,W 和 b 也会在每一层被更新。在代码实现时,可以将正向传播过程中计算出来的 z 值缓存下来,待到反向传播计算时使用。...

2019-03-09 22:10:47 162

转载 吴恩达深度学习笔记01——神经网络和深度学习2浅层神经网络

一、神经网络表示竖向堆叠起来的输入特征被称作神经网络的输入层(the input layer)。神经网络的隐藏层(a hidden layer)。“隐藏”的含义是在训练集中,这些中间节点的真正数值是无法看到的。输出层(the output layer)负责输出预测值。如图是一个双层神经网络,也称作单隐层神经网络(a single hidden layer neural network)。...

2019-03-09 11:26:25 298

转载 吴恩达深度学习笔记01——神经网络和深度学习1

实现一个神经网络时,如果需要遍历整个训练集,并不需要直接使用 for 循环。神经网络的计算过程中,通常有一个正向过程(forward pass)或者叫正向传播步骤(forward propagation step),接着会有一个反向过程(backward pass)或者叫反向传播步骤(backward propagation step)。一、Logistic 回归Logistic 回归是...

2019-03-07 17:05:53 244

原创 吴恩达机器学习笔记(12)——降维(Dimensionality Reduction)

这里介绍第二种无监督学习方法,叫做降维(Dimensionality Reduction)一、目标1:数据压缩Data Compression由于可能存在许多冗余特征量,或者说特征高度相关,所以需要减少特征量的数量。so如果允许我们通过投影这条绿线上所有的原始样本,来近似原始的数据集,那么我只需要用一个数就能表示每个训练样本的位置,这样就能把内存的需求减半,同时这将允许我们的学习算法运行的...

2019-03-05 16:29:23 685

原创 吴恩达机器学习笔记(11)——无监督学习与K-Means算法

一、无监督学习无监督学习与监督式学习相反,数据并不带有任何标签。算法要找到隐含在数据中的结构。比如将数据分为簇状的,就被称为聚类算法(clustering),这是一个典型的无监督学习算法。聚类算法可以用于:市场划分社会关系网络分析计算机集群聚类天文数据聚类二、K-Means算法在聚类问题中,我们会给定一组未加标签的数据集,同时希望有一个算法能够自动的将这些数据分成有密切关...

2019-03-04 11:31:01 333

原创 吴恩达机器学习笔记(10)——支持向量机SVM

一、优化目标支持向量机(Support Vector Machine ,SVM)是另一种监督式学习算法。它有时候更加的简洁和强大。我们将逻辑回归中的代价函数转化一下,并使用两段直线来尝试替代曲线,这被称作hinge loss 函数。我们把第一项定义为​cost1(z)​,第二项定义为​cost0(z)​,那么可以说​cost1(z)是当y=1时进行分类的代价函数,​cost0(z)是当y=...

2019-03-02 21:57:50 503

原创 吴恩达机器学习笔记(9)——机器学习系统设计

**一、机器学习系统的设计**1、确定执行的优先级我们以垃圾邮件分类为例,途径可以有:收集大量的数据(例如,honeypot)选取更多复杂的特征量(将邮件标题,邮件单词也考虑进来)开发更为复杂的算法来处理输入(例如一些故意的拼写错误,m1ss, hell0等)但是我们很难说,对于一个具体的问题,哪种方法可能会有效果。2、误差分析对一个具体的机器学习问题,由于无法简单的确定优...

2019-02-28 20:20:18 191

原创 吴恩达机器学习笔记(8)——模型评估与机器学习诊断法

一、如何改进一个机器学习算法假设你已经训练出一个机器学习算法,但是效果不太好,那么有以下几种改进方法:1、获得更多的训练数据2、

2018-12-19 18:10:05 417 1

原创 吴恩达机器学习笔记(7)——神经网络的一个学习算法

一、代价函数首先我们定义:L = 神经网络的总层数​si = 第L层的单元数量(不含偏置单元)K = 输出单元/类型的数量​hΘ(x)k​ = 假设函数中的第k个输出因为逻辑回归里的代价函数为:推广到神经网络中:二、代价函数的优化算法——反向传播算法(backpropagation algorithm)1、含义神经网络的代价函数已经求出来了,那么现在要进行min J也...

2018-12-03 20:06:20 450

原创 吴恩达机器学习笔记(6)——神经网络(Neural Networks)

一、非线性假设(Non-linear hypotheses)非线性假设采用神经网络的原因:当我们对如下数据进行使用非线性回归分类时,我们可以使用包含很多非线性项的逻辑回归函数,来回归分类。下面是只有X1, X2两个特征的逻辑回归函数。但是,如果数据包含上百个特征时呢?例如包含上百个特征的房屋分类问题,或者图像识别领域。我们要处理million级别的数据。二、神经元和大脑(Neuron...

2018-11-28 18:01:31 326

原创 吴恩达机器学习笔记(5)——正则化(Regularization)

一、过拟合问题(Overfitting)我们知道,机器学习训练的目的是为了让模型更好的拟合实际情况,从而指导我们进行预测。评价一个模型拟合度是否优良的参考之一是它与实际数据集的偏差程度,我们用代价函数来定量,一般代价函数越小越好。那么,是否会有一些意外情况出现呢?1、线性回归的情况:对于图中的数据集,分别使用了不同次数的多项式进行拟合:线性回归模型下,模型预测与数据集有一些差距,但是大方向...

2018-11-25 11:43:38 1924

原创 吴恩达机器学习笔记(4)——逻辑回归(logistic regression)

**一、分类问题**首先来看一个例子,用肿瘤的大小来预测肿瘤是良性或者恶性。这个问题的输出只有两个值——良性(1)和恶性(0),通常称之为分类问题。如果在此处我们使用线性回归来处理这个问题。那么如果加入最右的那个点,那么直线拟合就从红色斜线变成了蓝色斜线,也就出现了预测的误差。因此线性回归不适合于分类问题。另外,使用线性回归处理分类问题中常见的问题还有:分类问题的输出值y=0 or 1....

2018-11-22 20:00:37 287

翻译 吴恩达机器学习笔记(3)——多变量线性回归(Multivariate Linear Regression)

一、多元线性回归的假设形式多元线性回归的假设可表示为: 另外,我们定义一个额外的第0个特征向量x0=1,并将特征向量和参数都表示为矩阵形式,则方程变为: 二、多元梯度下降法多元线性回归的代价函数为: 其中,​x(i)j=​第i个训练样例中第j个特征量的值。PS:一些实用技巧(通过预处理,让初始的特征量具有同等的地位,才能让机器学习算法更快地学习得到...

2018-08-28 16:42:26 477

原创 吴恩达机器学习笔记(2)——单变量线性回归(Univariate linear regression)

一、模型描述 监督学习最常见的两类问题: 1、回归:预测一个具体的数值输出 2、分类:预测离散值输出先来看机器学习是如何进行的: 其中,h表示假设函数: θ是参数,下一节我们谈谈如何选择这两个参数值。二、代价函数(Cost function)我们现在有了数据集,并且可以通过改变参数来调整h函数,那么,我们如何定义什么是“更好”的h函数呢? 一般而言,我们通过调整...

2018-08-27 11:28:07 4575

原创 吴恩达机器学习笔记(1)——绪论

**一、什么是机器学习** 1.Arthur Samuel提出的定义: “The field of study that gives computers the ability to learn without being explicitly programmed.” 2.Tom Mitchell提出的定义: “A computer program is said to le...

2018-08-26 11:22:24 396

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除