2018年12月_DrCrypto

原创【机器学习】Octave矩阵，向量的表示与基本操作

CS229中需要用到Octave来做，张量的存储是必备的知识点，记录一下备用：% The ; denotes we are going back to a new row.A = [1, 2, 3; 4, 5, 6; 7, 8, 9; 10, 11, 12]% Initialize a vector v = [1;2;3] % Get the dimension of the mat...

2018-12-30 20:59:14 1757

原创【数据科学】什么是数据分析

数据分析是将原始数据进行排序和组织的过程，是用来帮助解释过去和预测未来的一系列方法。数据分析不是只针对数字进行分析，而是关于：如何设定/提出问题演化解释验证假设数据的本质现实世界所有场景都包含数据，数据分为：结构化/非结构化连续/离散…有不同的分类方法，从更普遍的意义上来看，数据分为：分类型数值型其中，分类型中又分为：定类：如住房类型定序：如年龄...

2018-12-25 18:32:14 408

原创【深度学习】卷积计算与训练模型的几种方法

卷积计算全连接层和卷积层的根本区别在于：全连接层（Dense层）从输入空间中学到的是全局模式，而卷积层学到的是局部模式。因为这个特性，所以卷积神经网络有两个有趣的性质：平移不变性：卷积神经网络在图像右下角学到的某个模式，它可以在任何地方识别出来这个模式；而对于全连接网络，如果模式出现在新的位置，就必须重新学习这个模式。所以卷积神经网络需要更少的数据就可以学到具有泛化能力的数据表示。空间层...

2018-12-22 22:09:50 853

原创【深度学习】CNN模型的可视化-1

CNN模型学到的东西很适合可视化，这里介绍三种方法：可视化CNN模型的中间输出（中间激活）：帮助我们理解CNN是如何对输入进行变换，以及CNN每个卷积核的含义可视化CNN的卷积核：帮助我们理解卷积核容易接受的视觉模式或概念客户刷图像中类激活的热力图：图像中哪些部分被识别为某个类别，辅助我们定位图像中的物体加载已保存的模型的方法from keras.models import load...

2018-12-22 22:02:45 1804

原创【深度学习】使用预训练模型

主要有两种方法：特征提取微调模型特征提取特征提取就是使用已经训练好的网络在新的样本上提取特征，然后将这些特征输入到新的分类器，从头开始训练的过程。卷积神经网络分为两个部分：一系列池化层+卷积层，也叫卷积基全连接层特征提取就是去除之前训练好的网络的卷积基，在此之上运行新数据，训练新的分类器。我们只是复用卷积基，而不用训练好的分类器的数据，这样做的原因是卷积基学到的表示更加...

2018-12-22 20:26:12 14692 3

原创【深度学习】ImageDataGenerator的使用--读书笔记

数据预处理现在模型也定义好了，原始数据也准备好了，但是在将数据填入模型之前，需要进行预处理才能使用，填入模型的是浮点数张量。而当前数据是以JPEG文件的形式保存在硬盘中，预处理步骤如下：读取图像文件将JPEG文件解码为RGB像素网格将像素网格转化为浮点数张量将像素值缩放到0~1区间Keras提供了自动完成这些步骤的工具：keras.preprocessing.image，其中有一个...

2018-12-22 16:00:56 21452 9

原创【深度学习】深度学习分类与模型评估

内容大纲分类和回归之外的机器学习形式评估机器学习模型的规范流程为深度学习准备数据特征工程解决过拟合问题处理机器学习问题的通用流程监督学习的主要种类及其变种主要包括两大类问题：分类回归变种问题主要有：序列生成：给定一张图像，输出描述图像的文字；可以被重新表示为分类问题语法树预测：给定一个句子，输出其分解生成的语法树目标检测：给定一张图像，在图中的目标周围绘制一个...

2018-12-22 00:11:17 7105 1

# -*- coding: utf-8 -*-&quot;&quot;&quot;单标签多分类问题之新闻主题分类.ipynbAutomatically generated by Colaboratory.Original file is located at https://colab.research.google.com/drive/18TqrbGYm2J-jmR89KZHOa7vxbAr4eOz2#...

2018-12-21 14:07:12 2600 1

原创【深度学习】IMDB数据集上电影评论二分类

任务描述根据电影评论的文字内容来将电影划分为正面或者负面。IMDB数据集50000条两级分化的评论。正面负面各为50%。# 加载数据from keras.datasets import imdb(train_data, train_labels), (test_data, test_labels) = imdb.load_data(num_words=10000) # 仅保留训练数据中...

2018-12-21 13:01:17 5402

原创【深度学习】使用Keras开发的流程概述

开发流程典型的Keras工作流程如下：定义训练数据：输入张量和目标张量定义层组成的网络（模型），将输入映射到目标配置学习过程：选择损失函数，优化器和需要监控的指标调用模型的fit方法在训练数据上迭代定义模型的方法有两种方法：使用Sequential类，仅仅用于层的线性堆叠，目前最常用函数式API，可以构建任意形式的架构案例：线性堆叠法from keras impor...

2018-12-21 00:57:51 1091

原创【深度学习】深度学习的四大组件

这四大组件就是：层输入数据和标签损失函数优化器这四者的关系描述如下：多层组合在一起形成了网络，网络的目的是将输入数据映射为预测值，通过损失函数将预测值和目标值比较，得出损失值，用来衡量网络的性能，而优化器的职责是迭代优化损失值来更新网络权重（BP算法）。层：构建网络的乐高积木深度学习模型的最常见用法是层的线性堆叠，将单一输入映射为单一输出，即数据从一端进，然后从另一端出。但...

2018-12-21 00:39:04 1515

原创【深度学习基础】张量的描述与深度学习常见张量

一些概念深度学习中的所有数据张量的第一个轴都是样本轴，也称之为样本维度。另外，深度学习模型不会同时处理整个数据集，而是将数据拆分成小批量，比如前面的案例就是每次取128个数据作为一个批量。batch = train_images[:128]# nextbatch = train_images[128:256]# nth batch = train_images[128 * n: 128...

2018-12-20 23:49:08 2214 1

原创【深度学习】张量

张量是一个数据容器，包含的数据是数值数据。矩阵是二维张量，而张量则是矩阵向任意维度的推广。张量的维度（dimension）通常叫作轴（axis）。标量只有一个数字的张量叫作标量，也叫0维张量。我们可以通过ndim来查看张量的维度，或者说轴的个数。向量一维张量，只有一个轴。x = np.array([1,2,3,4,5])x.ndim # 1这里需要区分一个概念是：5维向量和5维...

2018-12-20 23:27:42 1875

原创【深度学习】基于Keras的手写体识别

from keras import modelsfrom keras import layersfrom keras.datasets import mnist# 搭建网络network = models.Sequential()network.add(layers.Dense(512, activation='relu', input_shape=(28*28,)))network...

2018-12-20 22:08:33 1001

原创【深度学习】基于Numpy实现的神经网络进行手写数字识别

直接先用前面设定的网络进行识别，即进行推理的过程，而先忽视学习的过程。推理的过程其实就是前向传播的过程。深度学习也是分成两步：学习 + 推理。学习就是训练模型，更新参数；推理就是用学习到的参数来处理新的数据。from keras.datasets.mnist import load_dataimport pickledef sigmoid(x): return 1 / (1 + n...

2018-12-20 20:29:34 3283

原创【机器学习】输出层的设计

神经网络可以用于分类和回归问题，但是最后在输出时需要根据情况来设定输出层的激活函数。一般来说，回归问题：恒等函数分类问题：softmax函数https://blog.csdn.net/u011240016/article/details/85121601恒等函数与softmax函数恒等函数：输入 = 输出softmax函数yk=exp(ak)∑i=1nexp(ai)y_k = ...

2018-12-20 16:02:59 2100

原创【Numpy基础】矩阵数组相乘与神经网络的实现

# 矩阵乘以数组A = np.array([[1,2],[3,4],[5,6]])A.shape # (3, 2)B = np.array([7,8])B.shape # (2,)A.dot(B) # array([23, 53, 83])END.

2018-12-20 14:36:53 4712 2

原创【深度学习】学习深度学习的最好方法

学习深度学习的最好方法亲自实现，从零开始编写能运行的程序，一遍看源代码一边思考。只有这样才能正确理解深度学习，才能对那些看起来很高级的技术有完整的理解。不依赖第三方库，从最基础的开始实现起，对于理解深度学习的意义重大。在看数学公式和理论无法理解时，可以尝试阅读源代码并运行，很多时候思路会变得清晰。以工程促进理论的学习，是AI非常重要的步骤。这一篇非常短，但是指明了方向，且作为一篇，时刻提...

2018-12-18 23:31:11 627

原创【机器学习】回归案例实践：数据处理建模调参

# -*- coding: utf-8 -*-"""回归问题案例.ipynbAutomatically generated by Colaboratory.Original file is located at https://colab.research.google.com/drive/1l8xlYKSd8nljVVEEriZyoc0oivqMDWR0"""# 导入必要..

2018-12-18 22:40:48 1286

原创【机器学习】hist参数解读

在对数据进行可视化时，用hist来查看单一特征是很重要的，结合着看多种图表，有助于获得对数据的进一步理解。本篇是对 https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.hist.html 的翻译 + 个人笔记。先从它的定义看起，这个API太常用，所以有必要深入了解一下它的具体构成。DataFrame....

2018-12-18 19:37:16 8300

原创【机器学习】算法调参

# -*- coding: utf-8 -*-"""算法调参.ipynbAutomatically generated by Colaboratory.Original file is located at https://colab.research.google.com/drive/1kILamn8ac8vii9GUkiWowl8TIFwl2MCv### 超参数优化这...

2018-12-18 16:12:34 1339

原创【机器学习】集成算法使用样例

# -*- coding: utf-8 -*-"""集成算法.ipynbAutomatically generated by Colaboratory.Original file is located at https://colab.research.google.com/drive/1cr8C3JW8619DoKNb0nd9u7_RqfAlruTv**Bagged Dec...

2018-12-18 15:28:59 525

原创【机器学习】流程模板

六个步骤：1.定义问题2.理解数据3.数据准备4.评估算法5.优化模型6.结果部署# 1.定义问题# a)导入类库# b)导入数据集# 2.理解数据# a) 描述性统计# b) 数据可视化# 3.数据准备# a) 数据清洗# b) 特征选择# c) 数据转换# 4.评估算法# a) 分离数据集 train_test_split# b) 定义模型评估标准...

2018-12-18 10:47:08 327

原创【机器学习】一些模型的位置总结

模型包名说明LinearRegressionsklearn.linear_model线性回归模型Ridgesklearn.linear_model岭回归，对病态数据拟合强于最小二乘法Lassosklearn.linear_model套索回归ElasticNetsklearn.linear_mode弹性网络回归算法，是Ridge和Lasso的混...

2018-12-18 09:48:54 426

原创【机器学习】选择模型

在完成特征选择之后，我们就可以用选择的特征来训练算法了，且能够得出准确度比较高的模型。现在的问题是，训练得到的模型，如何评估是好是坏呢？这就牵涉到本篇涉及的话题：模型选择。建立完模型，要去评估模型，这是机器学习流程必不可少的一部分，本篇就来讲讲如何评估模型的性能。在这里有个关键词叫重采样，其实含义就是用新的数据集来评估算法，也即训练集之外的数据，这实在太熟悉，也讲了太多次，从各个角度讲过。...

2018-12-18 00:39:00 588

原创【机器学习】sklearn文档学习之特征选择

本文是对 https://scikit-learn.org/stable/modules/feature_selection.html 翻译加个人思考笔记。1.13.1 移除低方差的特征VarianceThreshold是特征选择包中的一个方法。引用的方式是from sklearn.feature_selection import VarianceThreshold。它可以过滤掉不满足一定方...

2018-12-17 15:16:21 1226

原创【机器学习】端到端机器学习实践

主要步骤1.全局概览2.收集数据3.探索数据，可视化数据获取洞见4.为机器学习算法准备数据5.选择模型并训练模型6.调优模型7.展示解决方案8.上线，监控并维护系统用真实数据做机器学习学习机器学习时，用真实的数据集要比用模拟的数据要更加具有吸引力。幸运的是，有成千上万的开发数据集可供我们使用，下面列出几个选择：UCI机器学习仓库 http://archive.ics.uci...

2018-12-17 00:19:14 328

原创【机器学习】机器学习的主要挑战与应对方式

在机器学习中，我们的主要任务是选择一个学习算法并将其在数据上训练，所以有可能效果不佳的两个地方在于：算法不好数据不好我们先从数据不好开始看起。训练数据的数量不够如果是教一个小孩子认什么是苹果，指给他看一下苹果，可能要重复几次，然后这个小孩子就能够识别苹果了。但是对于机器学习而言，实现相同的效果则要难得多。机器学习算法需要大量的数据来完成任务。即使是简单的任务，也需要大量的样本，对...

2018-12-16 21:36:37 1504

原创【机器学习】Scikit-Learn数据预处理文档翻译+笔记记录 - 1

翻译本文档，系统学习以下数据的预处理方式。原文档地址：https://scikit-learn.org/stable/modules/preprocessing.html#preprocessing4.3 预处理数据sklearn.preprocessing包提供了几种常用的工具函数以及转换类来将原始的特征向量数据转换为更加适合后续模型使用的表达。一般来说，学习算法能够从数据集的标准化中受...

2018-12-16 19:46:09 627

原创【机器学习】Pandas读取存在Github上的数据集

这种：import pandas as pdoecd_bli = pd.read_csv("https://github.com/ageron/handson-ml/blob/master/datasets/lifesat/oecd_bli_2015.csv", thousands=',')是有问题的，数据集的在线连接应该用下面这个：https://raw.githubuserconte...

2018-12-15 18:17:33 3331

原创【React】设计高质量的React组件

内容大纲划分组件边界的原则React组件数据种类React组件的生命周期React应用将围绕着组件的设计展开，所以关于组件的设计至关重要。设计易于维护的组件原则任何一个复杂的应用，都是由一个简单的应用发展而来。软件设计的通则：高内聚，低耦合。在前端开发中，HTML负责页面显示，交互放在JS，样式放在CSS文件，从功能角度来说，模块划分明确，但是不满足高内聚的原则。Reac...

2018-12-13 22:54:03 320

原创【React】JSX

JSX是对JavaScript的语法拓展，使得我们可以在JS中编写像HTML一样的代码。比如：// index.jsReactDOM.render( <ClickCounter />, document.getElementById('root'));这里的<ClickCounter />就是JSX代码。我们可以在JS代码中直接使用类似HTML的语法，但...

2018-12-13 22:07:40 250

原创【深度学习】什么是深度学习-2

三张图理解深度学习工作原理回顾：机器学习就是学习到如何将输入数据映射到目标值，具体实现方式是让模型观察大量的案例（输入 + 目标）。而深度学习则是通过堆叠多个网络层，通过观察学习案例，最终学会对数据进行有意义的表征。现在是时候来具体了解一下深度学习的原理了。网络层的权重 vs. 参数权重和参数是相同的概念，但是到底权重是什么呢？从上面一路引申过来的概念看，权重就是网络层对输入数据学得的表征...

2018-12-13 21:48:11 462

原创【深度学习】什么是深度学习-1

人工智能，机器学习与深度学习问自己一个问题：到底深度学习目前实现了什么成就？它到底有多重要？我们已经处在哪个阶段了？一图看懂三者的关系：人工智能是个大范畴，机器学习是人工智能的一个子集，而深度学习则是机器学习里的更小的子集。但是传统的机器学习其实是比深度学习更难的，要求的数学知识更多，所以不要因为深度学习这个概念更火，而忽视了学习传统机器学习，目前的经验看，坐好冷板凳，把统计机器学习学透...

2018-12-13 21:04:45 1137

原创【React】添加新组件

环境准备安装create-react-app通过安装create-react-app，我们可以在本地创建前端应用。npm install -g create-react-app紧接着我们可以创建一个项目：create-react-app first_react_appcd first_react_appnpm start基于组件开发应用这是React开发的首要思想。组件是什...

2018-12-13 17:36:26 1971

原创【机器学习】Pima数据集的可视化

对数据进行理解的最快最有效的方式是：数据的可视化。单一图表直方图密度图箱线图直方图通过直方图可以非常直观地看出每个属性的分布状况：高斯分布，指数分布还是偏态分布。from pandas import read_csvimport matplotlib.pyplot as pltfilename = 'data/pima_data.csv'# names = ['Numbe...

2018-12-12 13:13:52 2722

原创【机器学习】Pima数据探索--七种武器

七种理解数据的方法简单查看数据审查数据的维度审查数据的类型和属性总结查看数据分类的分布情况统计分析数据理解数据属性的相关性审查数据的分布情况# 简单查看数据from pandas import read_csvfilename = 'data/pima_data.csv'names = ['preg', 'plas', 'pres', 'skin', 'test', 'm...

2018-12-12 12:53:35 864

原创【Python基础】with语句

上下文管理器只有理解了上下文管理器，才能更好理解with的工作原理。上下文管理协议，这个协议主要包含两个方法：__enter__()__exit__()协议一般是管定标准的，具体执行要落实到对象，而支持上下文管理协议的对象必须要实现上面的两个方法。上下文管理器实现了上面提到的__enter__()和__exit__()方法的支持上下文管理的对象。通常使用with语句来调用上下文...

2018-12-11 21:16:28 193

原创【机器学习】鸢尾花数据探索

# 导入必要的处理包from pandas import read_csvfrom pandas.plotting import scatter_matrixfrom matplotlib import pyplotfrom sklearn.model_selection import train_test_splitfrom sklearn.model_selection import...

2018-12-11 20:55:07 1073

原创【React-3】添加属性

<!DOCTYPE html><html><head> <title> Learning React.js </title> <link rel="stylesheet" href="https://stackpath.bootstrapcdn.com/bootstrap/4.1.3/css/bootstrap.

2018-12-11 19:39:42 1126

TensorFlow for Deep Learning: From Linear Regression to Reinforcement Learning

Hands-On Machine Learning with Scikit-Learn and TensorFlow -- 2017.3月第一版 + 对应代码

Practical Python and OpenCV + Case Study均为第三版两本书用Python3

2009~2016真题--不含选择题解析

C++ Primer第五版翻译--队列适配器