on2way-CSDN博客

原创简单理解与实验生成对抗网络GAN

之前GAN网络是近两年深度学习领域的新秀，火的不行，本文旨在浅显理解传统GAN，分享学习心得。现有GAN网络大多数代码实现使用python、torch等语言，这里，后面用matlab搭建一个简单的GAN网络，便于理解GAN原理。GAN的鼻祖之作是2014年NIPS一篇文章：Generative Adversarial Net,可以细细品味。分享一个目前各类GAN的一个论文整理集合再分享一个目前各

2017-05-26 21:31:49 139967 138

原创 “我爱智能”原创性博客索引

不知不觉，博客也写出了一点小体系，新的阶段已经开始，未来希望再接再厉继续补充这一体系，在成长中写博客，在博客中成长，在此先做一个小的梳理，谢谢大家的支持。一）关于深度学习系列深度学习系列-前言:深度学习的好教程深度学习系列（二）：从神经网络到深度学习深度学习系列（三）：简单网络的自编码学习深度学习系列（四）：什么是稀疏编码深度学习系列（五）：一个简单深度学习工具箱深度学习系列(六)：

2015-08-29 22:07:53 5525 4

原创解密SVM系列（一）：关于拉格朗日乘子法和KKT条件

写在之前支持向量机（SVM），一个神秘而众知的名字，在其出来就受到了莫大的追捧，号称最优秀的分类算法之一，以其简单的理论构造了复杂的算法，又以其简单的用法实现了复杂的问题，不得不说确实完美。本系列旨在以基础化的过程，实例化的形式一探SVM的究竟。曾经也只用过集成化的SVM软件包，效果确实好。因为众人皆说原理复杂就对其原理却没怎么研究，最近经过一段时间的研究感觉其原理还是可以理解，这

2015-08-17 18:53:39 79654 57

原创 Python下opencv使用笔记（十）（图像频域滤波与傅里叶变换）

前面曾经介绍过空间域滤波，空间域滤波就是用各种模板直接与图像进行卷积运算，实现对图像的处理，这种方法直接对图像空间操作，操作简单，所以也是空间域滤波。频域滤波说到底最终可能是和空间域滤波实现相同的功能，比如实现图像的轮廓提取，在空间域滤波中我们使用一个拉普拉斯模板就可以提取，而在频域内，我们使用一个高通滤波模板（因为轮廓在频域内属于高频信号），可以实现轮廓的提取，后面也会把拉普拉斯模板频域化，会发现

2015-07-21 10:17:11 59847 24

原创 spark在什么情况下会使用mapPartition

spark中mapPartition使用

2022-11-02 20:31:33 990 1

原创深入理解spark高阶算子combineByKey

深入理解spark的combinebykey算子

2022-10-31 20:25:11 1273

原创决策树与回归树区别到底在哪

前面讲了几节决策树从底层的构造原理，更多的是面向分类的决策树，从树的用途上讲还有一种用途，那就是回归树，结构也是树，但是出来的结果是回归值。可能很多人不用回归树做任务的时候很少去管回归树，以至于有时候也不知道它们的区别，但是还是有必要掌握，因为牛逼的树算法，比如GBDT，xgboost的单棵树可不是分类树，是回归树。所谓分类树就是面向分类的，每个决策树最末端的叶子结点出来的是一个分类标签，不是0...

2019-03-19 21:01:03 29002 7

原创决策树与随机森林与GBDT

本节简单介绍下随机森林。前面花了两节详细介绍过决策树的核心内容，这对于理解随机森林算法很重要。随机森林与SVM应该来说被视为传统机器学习效果最好的两大算法，是值得每个机器学习从业者深入了解的，从最底层的原理到上层的应用，内部的每个核心细节等等。关于SVM的每个细节，先前的文章有介绍，文末也有参考链接。回归正题，说完决策树，说说随机森林，我们知道决策树是单独的一棵树，是根据所有训练样本的所有特征...

2019-03-19 20:55:20 2130

原创决策树：属性的选择（续）

接先前一节总结决策树的，还有一些问题。上节的参考：决策树：从特征的重要程度说起上节主要介绍了决策树的构造方法，以及非常重要一部分是对于每个节点的特征属性是怎么选择的，这是决策树的核心。比较原始的是基于信息熵与信息增益的方法做的，这也对应着最开始的ID3方法。为了改进ID3，出现了基于信息增益率的特征选择以及基于基尼系数的特征选择方法。对应起来就是：（1）信息增益 -> ID3（2）...

2019-03-19 20:52:07 1409

原创 arxiv上传latex文章的方法与坑

如果想在arxiv上挂出文章，通常可以挂pdf与latex两种格式的，如果pdf是由latex生成的话，一般只能上传latex源文件，不支持pdf的上传。arxiv上上传latex主要包括以下几个部分，尤其上传文件线上编译一步具有一些坑需要注意。第一步：注册账号，填写学校后缀邮箱，免去可能的上传权限审核；第二至六步：填写一些基本信息与设置，参考网上的图：新建提交：填写信息第七...

2019-01-06 18:20:17 28554 7

转载《统计学习方法》python代码资料

分享一则资料，《统计学习方法》的python实现代码。《统计学习方法》是李航的一本书，是比较基础经典的一本书，书中更多的是对基础传统机器学习的理论介绍，没有任何代码，这算是对代码的补充。另外一本书《机器学习实战》，是包含部分理论与代码的书，也很经典，我看了下代码，网友整理的这个代码好多就是从这本书上来的，因为这两本书都是基础类的书，重叠部分还是很多的。但是整体来说《统计学习方法》理论东西更多，...

2018-12-23 20:57:44 2342

原创决策树：从特征的重要程度说起

开始陆续介绍决策树与随机森林，理解原理与会用来做分类算法是其一，更重要的是要理解决策树构造的精髓并加以推广应用才是算融会贯通。先来看看所谓的树结构，其实很简单，就是从一个节点往下依次不断分裂节点的一种结构，比如下面这个图描述的是根据一个人的信息（包括职业、年龄、收入、学历）去判断他是否有贷款的意向的树结构图：可以看到，所谓的树结构其实就是一大堆有顺序的if-else条件判断语句的组合，如果职...

2018-12-23 20:48:39 11668

原创 spark机器学习之常见的分类算法应用

今天简单记录下mllib中常见的分类算法，在分类的子文件夹下主要有三类分类算法：logistic回归模型、贝叶斯模型、SVM模型。logistic回归模型首先需要认清的是逻辑斯蒂回归并非回归模型，和上节介绍的线性回归不一样，它是属于分类模型，虽然和线性回归功能上不一样，但是形式上和线性回归还是很相似的，不同点在于通过添加logistic映射函数使得原始的线性回归方程式变成了可用于分类的模型。应...

2018-12-23 20:44:43 4579

原创 spark机器学习之简单的线性回归

今天正式进入机器学习相关算法类的记录学习。后续会将spark的mllib工具包里面设计到的回归于分类算法介绍一遍，看一下mllib包可以发现，传统的机器学习算法基本上都包括在里面，比如线性回归，logistic回归，贝叶斯分类，svm，决策树，随机森林等。在往上走更牛逼的分类算法像xgboost就不在原始spark自带的mllib里面了，但是肯定是有一些集成的外部工具包可以在spark里面一起使用...

2018-12-05 09:54:05 9371 3

原创 spark机器学习中的基本统计量

上节记录了spark机器学习的数据相关结构，主要是向量与矩阵，本节记录一些基于这些数据结构的统计量。在做机器学习中，我们经常需要用到一些向量或者矩阵的统计量，比如求一个向量的均值、方差，求一堆向量的均值向量、协方差等等。spark机器学习工具包主要是mllib，而里面的统计量主要调用的是Statistics类库。基本统计量与距离计算基本统计量存在于Statistics库下面的colSt...

2018-12-02 09:35:17 962

原创 spark机器学习中的基本数据类型

今天开始记录spark中机器学习的相关应用。spark某种意义上讲就是为机器学习准备的，其一，spark是一种内存计算框架，速度快，其二，spark更擅长处理迭代式的数据计算，而迭代运算这是机器学习模型经常遇到的。延申一点，目前大数据还有一种是流式运算，也就是处理的是实时数据，虽然这种spark也可以，但是毕竟是一种伪造的流式。所以更多时候spark是处理离线的、迭代式的运算。spark里面目...

2018-12-01 09:29:46 2560

原创零基础入门大数据之spark中rdd部分算子详解

先前文章介绍过一些spark相关知识，本文继续补充一些细节。我们知道，spark中一个重要的数据结构是rdd，这是一种并行集合的数据格式，大多数操作都是围绕着rdd来的，rdd里面拥有众多的方法可以调用从而实现各种各样的功能，那么通常情况下我们读入的数据源并非rdd格式的，如何转换为rdd呢？一个基本的方法是初始化，或者格式化操作函数parallelize。parallelize比如一...

2018-11-28 19:39:40 813

原创零基础入门大数据之spark中的几种key-value操作

今天记录一下spark里面的一些key-value对的相关算子。key-value对可以简单理解为是一种认为构造的数据结构方式，比如一个字符串"hello"，单看"hello"的话，它是一个字符串类型，现在假设我想把它在一个文本中出现的次数n作为一个值和"hello"一起操作，那么可以构造一种键值对(key-value)的结构来表示，也就是（hello,n）这样的结构，那么可能会问为什么要这么构...

2018-11-25 11:36:15 3403

原创零基础入门大数据挖掘之spark中的几种map

今天再来说一下spark里面的几种map方法。前面的文章介绍过单纯的map，但是spark还有几种map值得对比一下，主要是下面几种：map：普通的mapflatMap：在普通map的基础上多了一个操作，扁平化操作；mapPartitions：相对于分区Partition而言的，即对每个分区分别进行一次性的map。mapValues(function) ：适合key-value对的map...

2018-11-22 20:25:23 1404

原创零基础入门大数据挖掘之spark的rdd

本节简单介绍一下spark下的基本数据结构RDD，方便理解后续的更多操作。那么第一个问题，什么是rdd。我们知道，大数据一般存储在分布式集群里面，那么你在对其进行处理的时候总得把它读出来吧，读出来后总得把它存成某种格式的文件吧，就好比编程语言里面的，这个数据是数组，那么你可以以数组的格式操作它，直接索引下标访问之类的，如果这个数据链表，那么你可以用另外的形式访问它。那么很自然的，你用语言读取数据...

2018-11-22 20:22:41 718

原创未来的大数据生活会是这样吗

今天看极客时间上一篇大数据文章看到一个有意思的评论，展示一则已经出现或者可能会出现的实际场景，有点意思，如下：一家快餐披萨店，外卖电话响了，店长拿起电话。店长：您好，这里是××披萨店。请问有什么需要我为您服务？顾客：你好，我想要订一份披萨。店长：请问您是陈先生吗？顾客：你怎么知道我姓陈？店长：陈先生，因为我们的CRM（客户关系管理）系统对接了三大通讯服务商，看到您的来电号码，我就知道...

2018-11-20 09:16:23 1275

原创零基础入门大数据挖掘之reduce方法

上节介绍过大数据里面（以spark为例）最为基础典型的操作：map方法，map方法直白的理解就是一个分布式接受处理函数的方法，形式如map(fun)，map方法本身不做处理，没有map方法，里面的函数fun就是一个单机的处理函数，有了map，相当于就把这个函数复制到多台机器上，每台机器同时运行fun函数，这就是分布式处理。今天简单介绍与map相对应的reduce函数。大数据里面，我们经常听到ma...

2018-11-20 09:13:21 759

转载吴恩达新书-Machine Learning Yearning 中英文版（全）

介绍一本吴恩达新书，说新也不新，出来也有好大半年了，也许你早就看过，如果没有可以看看。这是一本面向实战类的书，讲述的是吴恩达自己关于项目类的比较高认识的总结，吴恩达称：这本书的主题是“如何构建机器学习项目”。“这本书的重点不在于教授具体的机器学习算法，而在于如何使机器学习算法真正发挥作用。有一些技术类的人工智能课程会给你一个锤子；而这本书会教你如何使用这个锤子。如果你渴望成为人工智能领域的技术...

2018-11-06 09:28:59 4968

原创零基础入门大数据挖掘之map方法

零基础入门大数据挖掘之map方法零零散散开始记录自己学习大数据的相关知识，力争做到从完全小白的角度记录如何入门大数据机器学习的相关知识点与框架操作。如果有将来从事互联网类的机器学习方向的，肯定少不了学，可以参考。先说下大致认识，大数据的底层架构知识非常多，以前分享过一个非常全的系列学习视频，详细请关注公众号AInewworld。可以看出，大数据，从hadoop到文件系统，到存储，到处理框架等...

2018-10-28 22:00:03 1297

原创 “头号玩家”之我们会活在虚拟世界里吗

相信近期都会被一部评分较高的虚拟游戏电影“头号玩家”所吸引，今天也去看了下，很好看，整个过程，激动刺激，当然除了这些刺激之外，我也在思考一个问题，若干年后，我们的现实会像电影里面呈现的那样吗？或者也许更极端一点，我们会完全活在虚拟的世界吗？简单来回顾一下剧情，未来，一帮天才游戏设计师创造了一个虚拟的vr游戏世界“绿洲”，人们戴着头盔等各种传感器可以操作虚拟世界里的个人人物。一天，主设计师自称去...

2018-04-02 14:22:38 3092 2

原创 windows下操作服务器等linux平台的工具组合

相信很多人应该都需要在linux环境下进行实验，也许你的电脑本身是linux的，但是大多数可能window系统的，而这些人使用linux做实验的环境要么是远程操作linux服务器使用，要么是在自己电脑上装个虚拟机，然后在虚拟机上安装个linux系统来操作。这里记录下一切都可以靠软件在window操作来操作linux。一句话，只需要把linux环境配好，有了ip地址，那么一切就可以在window...

2018-03-10 12:50:08 6844

原创【论文】GAN图像转换之从pix2pix到cycle GAN

该节分享两篇使用GAN的方法来进行图像转换方面的文章，分别是pix2pix GAN 和 Cycle GAN，两篇文章基本上是相同的作者发表的递进式系列，文章不是最新，但也不算旧，出来半年多点，算是比较早的使用GAN的方法进行图像转换的文章吧，该部分将详细解读其实现过程。图像转换或者图像的风格转换，顾名思义，是指把一副图像A按照另一幅图像B的模式/风格进行转换的一个操作，例如 “白天-

2017-12-10 22:33:20 24022 10

原创 python搭建简易神经网络结构

本节使用python环境，在不使用深度学习工具箱情况下搭建一个简单的神经网络结构（非CNN卷积网络）来训练mnist手写体数据库。网络的结构可以很简单，比如就是([784,200,100,10])，输入维度为784是一个样本大小的28*28，网络包含dropout操作，更多的是理解这种最基础的反向传播机制的实现过程。完整的项目点击github主页获取下面看下可运行的包含训练测试的代码：# -*- c

2017-12-04 21:04:47 4212

原创 git学习笔记

系列学习笔记首次连载于微信公众号：“AInewworld”，关注了解更多~相关教程：很好很全的官方教程第二版(力推)廖雪峰的官方网站莫烦python的视频git教程1 git基础教程1.1 git基础（1）git思想：直接记录快照，而非差异比较；Git 和其他版本控制系统的主要差别在于，Git 只关心文件数据的整体是否发生变化，而大多数其他系统则只关心文件内容的具体差异。这是 Git 同其他系统的

2017-11-30 23:18:33 4511 1

原创 python下generator等高级功能

python下使用argparse包来进行控制端的输入输入参数一个例子import argparse def main(): parase = argparse.ArgumentParser() parase.add_argument('--x', type=float, default=1.0, help='What is the

2017-04-24 20:55:10 4891

原创 python 下类使用记录小实例

python 下类使用记录小实例完整英文参考学习视频使用pygame显示的碰撞的一个小例子简单运动import pygameimport randomSETARTING_BLUE_BLOBS = 10SETARTING_RED_BLOBS = 3# 设置边界WIDTH = 800HEIGHT = 600# 设置背景与颜色WHITH = (255,255,255)BLUE = (0,

2017-04-24 20:51:45 2327

原创 python下的文件相关操作

python中对文件、文件夹（文件操作函数）涉及到的主要两个模块：os和shutilos是一个基础的文件操作，shutil是一种高层次的文件操作工具关于os的操作，主要集中在文件、文件夹读取方面使用前加入包： import os读取当前python的工作目录： os.getcwd()>>> path = os.getcwd()>>> path'D:\\myself\\python\\docme

2017-04-20 21:41:02 2592

原创 c++翻译教程系列目录索引

断断续续，积以跬步，致以千里，让写作成为习惯，让思考融入人生，祝愿走在奋斗路上的你~————————————————————————该系列教程为翻译c++官方教程，点击参考英文原版，水平有限，翻译不通之处敬请谅解！————————————————————————c++教程（一：Compilers） c++教程（二：Structure of a program） c++教程（三：Variables

2017-02-13 17:10:52 2763

原创深度学习（十五）：Matconvnet小试fast-rcnn目标检测

该节来试验一下Matconvnet集成的fast-rcnn目标检测模型。去Matconvnet的官网可以发现，当前最新一版的Matconvnet-1.0-beta23 集成了fast-rcnn模型，注意不是faster-rcnn模型，至于他们为什么不开发当前最新的faster-rcnn模型，可能是faster-rcnn本身也出来不是很久（不到一年），来不及集成，相信未来会集成的吧。总的来说faste

2016-11-01 13:06:51 9780 36

原创深度学习（十四）：详解Matconvnet使用imagenet模型训练自己的数据集

上节讨论过如何使一个简单的cnn网络训练mnist数据集，该节介绍复杂并且使用广泛的使用imagenet网络的预训练模型训练自己的数据集。Ok首先是自己的数据集了。Matconvnet中训练imagenet的数据集的准备不像caffe这些工具箱弄得那么好，弄个train文件夹，test文件夹，以及两个txt索引就好了，感觉很不人性。后面我将会将其输入改为这种人性的类型输入格式。这里是有一个网友准备的

2016-10-28 19:50:18 41208 285

原创深度学习（十三）：Matconvnet详解与实验手写体数据库

手写体数据库是一个简单通用的模型，这是进一步理解像imagenet的cnn模型的基础模型。关于手写体，输入的大小就是28*28的黑白二像素图像，比较简单，ok现在开始操作。Matconvnet自带集成mnist这个实例库，数据集的下载都帮集成了，我们只需要去确认工具箱可以用，然后直接运行就可以了。打开安装文件夹以后打开如下函数：首先将整个安装包添加路径，然后直接运行就可以了。等一段时间后（训练20代

2016-10-28 19:27:09 18961 34

原创深度学习（十二）：Matconvnet小试牛刀与提特征

该节简单介绍一下如何使用Matconvnet的现有的模型进行图像分类实验以及提取图像对应层的特征。先来看看如何用训练好的imagenet网络模型进行图像的预测，英文版的官网教程就在这里：http://www.vlfeat.org/matconvnet/quick/检测图像分类之前，首先需要训练好的模型，官网也提供了各式各样的网络模型，下载如下：http://www.vlfeat.org/matcon

2016-10-28 19:20:11 32899 34

原创深度学习（十一）：Matconvnet简介与安装

当前深度学习框架层出不穷，大点公司企业都在做自己的深度学习库，百度，Google，Facebook等等，各种各样的框架也很多，各种语言的也都有，难易程度各异，一个框架连接十个值得一试的开源深度学习框架各类框架自己去选择吧，这里想说一下的是其中一个用于研究领域较多的一个框架Matconvnet，这个框架是基于matlab写的，matlab懂得，研究用的，方便简单。首先贴一下 Matconvnet的主页

2016-10-28 19:11:30 11666 2

原创深度学习系列（十）：从卷积计算到卷积神经网络CNN

前面已经介绍了深度学习的一个模型框架：自编码器，那么从本节后来再来简单介绍一下深度学习的另一个模型框架：卷积神经网络CNN，关于CNN可能大家听说过的不能在多了，网上资源众多，各路大神总结的也是无比完美，在这里就不在copy了，重要的地方直接直接贴出那些优秀的文章，这里旨在记录一下整个思路过程以及一些简单的认识以求完整。首先贴一下网络上众多了讲解CNN的好资源吧：（1）综述性的：Deep Lea

2016-01-16 15:25:54 21453

原创深度学习系列（九）：详解工具箱参数及网络一种改进方式-dropout

本片主要介绍一种对于网络参数的改进方式，这也是大牛Hinton在前两年对深度网络的一个工作，主要的方法就是dropout，思想就是在训练网络的时候随机扔掉一些网络权值进行训练，其方法在前面的DeepLearnToolbox工具箱中也有集成，通过在这个工具箱中设置dropout参数可以直接实现网络中加入dropout的算法思想，本文旨在研究该工具箱时涉及到了dropout这块然后希望弄明白这块。关于d

2016-01-15 19:36:25 11053 1