LYX0721-CSDN博客

原创 Kaggle(一)：Titanic 数据集线性回归预测

import pandas as pdtitanic = pd.read_csv ("Desktop/research/Kaggle/Titanic/train.csv")titanic_test = pd.read_csv ("Desktop/research/Kaggle/Titanic/test.csv")titanic.head(5)print(titanic.describe()) #数值型titanic["Age"] = titanic ["Age"].fillna(titanic["

2020-07-30 09:36:39 1068

原创用GAIN来补充缺失数据之论文篇（一）

原文章如下图是算法的图示：在这个算法中，我们定义如下几个变量：通过原始数据保留未缺失的数据得到： X~={Xiif Mi =1∗otherwise\ \tilde X = \begin{cases}X_i&\text{if $M_i$ =1}\\*&\text otherwise\end{cases} X~={Xi∗if Mi =1otherwise接下来通过训练生成器通过随机变量Z来填补：Xˉ=G(X

2020-07-22 23:11:14 3723 2

原创用GAIN来补充缺失数据之代码篇（一）

原论文原代码在这篇博客中，我们解析用生成对抗系统如何有效补充缺失数据的一种方法。def gain (data_x, gain_parameters): # Define mask matrix data_m = 1-np.isnan(data_x) #mask matrix # system parameters batch_size = gain_parameters['batch_size'] hint_rate = gain_parameters['hint_rate']

2020-07-22 09:38:19 2809 1

原创怎样处理缺失数据（二）处理缺失数据基本方法分类

处理缺失数据的方法可分为以下几类：1. 只保留观察数据 (Procedures based on completely recorded units)这种方法去除所有在某一变量上有缺失数据的纪录，只保留所有数据完整的纪录。优点：容易实施缺点：只适用于缺失数据较少的数据，可能产生较大误差。2. 加权 (Weighting procedures)这种方法也是通过对现有未缺失数据通过以下公式进行加权处理 yˉHK=∑i=1n(πip^i)−1yi∑i=1n(πip^i)−1\ \bar

2020-07-18 14:30:29 3059

原创怎样处理缺失数据（一）：判断缺失的模式和机制

怎样处理缺失数据？一、缺失数据的定义我们首先来看一下缺失数据的定义：Missing data are unobserved values that would be meaningful foranalysis if observed; in other words, a missing value hides ameaningfulvalue.缺失数据是指一些观测后对分析有意义的未观测数据。例如，当我们在事先调查选举情况时，有三种答案，yes，no和missing。如果这个missing

2020-07-17 16:09:37 5618 1

原创 Autoencoder学习手册（三）变分编码器（VAE）

变分自动编码器（Variational Autoencoder）变分编码器是自动编码器的升级版本，其结构跟自动编码器是类似的，也由编码器和解码器构成。与一般的自动编码器最大的不同就是在编码过程给它增加一些限制，迫使其生成的隐含向量能够粗略的遵循一个标准正态分布。从而解决我们没有办法自己去构造隐藏向量，任意生成图片的缺点。下面是训练VAE模型的代码：x = Input(batch_shape=(batch_size, original_dim))#全连接层h，nodes个数为intermediate_

2020-07-13 21:23:13 287

原创 Autoencoder学习手册（二）自编码器图像去噪

文章和代码链接：https://blog.keras.io/building-autoencoders-in-keras.html首先我们在已有的MINIST基础上加噪音：from keras.datasets import mnistimport numpy as np#导入minist(x_train, _), (x_test, _) = mnist.load_data()x_train = x_train.astype('float32') / 255.x_test = x_test

2020-07-13 15:45:00 677

原创 Autoencoder学习手册（一）训练与输入图像相同的输出图像

原文章和代码链接：https://blog.keras.io/building-autoencoders-in-keras.html如上图所示是我们想实现的效果，通过encoder将图片压缩降维，再通过decoder将压缩信息还原成为原图片。Autoencoder具有数据特定性，我们通过图像建立的autoencoder模型只能很好的运用在与之相似的图片上，普遍性较差。在今天，机器学习两个最主要的应用就是数据降噪和通过降维达到数据可视化的目的。下面我们来解析一下建立最简单autoencoder的算法：

2020-07-13 13:28:42 1044

原创 GAN学习手册（一）对训练normal distribution的解读

GAN训练normal distribution的解读

2020-06-24 19:58:51 562

原创初次使用jupyter lab/notebook问题汇总（一）

初次使用jupyter lab/notebook问题汇总（一）最近刚开始研究机器学习方面。之前用colab，但是发现保存一些图片或导入不是很方便，于是改用jupyter试跑一些GitHub上面的例子。通过anaconda打开jupyter lab/notebook出现了一些基础问题，找了很多资料才解决。因此做一个汇总，希望可以帮到大家（部分答案非原创，原作者会标注在每个答案后）。问题1: 怎样查看环境？安装完anaconda后会自带一个base环境。在界面中点击home下面的environment

2020-06-23 12:02:38 1749

YUxuaN0721的博客