自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 SAS统计初学1-卡方检验

卡方检验; 卡方检验是一种用途很广的计数资料的假设检验方法。 它属于非参数检验的范畴,主要是比较两个及两个以上样本率( 构成比)以及两个分类变量的关联性分析。 其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。 它在分类资料统计推断中的应用,包括:两个率或两个构成比比较的卡方检验...

2020-04-18 18:09:00 146 0

原创 动手学深度学习18- 模型构造基础Module类的操作手册

模型的构造 通过Module类来构造模型 Module的子类 Sequential类 ModuleList 类 ModuleDict类 构造复杂的模型 小结 模型的构造 回顾之前的3.10章节中的多层感知机的简洁实现中,含但隐藏层的多层感知机的实现方法中,我们首先构造了Sequenti...

2019-12-28 20:47:00 43 0

原创 动手学深度学习17-kaggle竞赛实践小项目房价预测

kaggle竞赛 获取和读取数据集 数据预处理 找出所有数值型的特征,然后标准化 处理离散值特征 转化为DNArray后续训练 训练模型 k折交叉验证 预测样本,并提交结果 kaggle竞赛 本节将动手操作实践一个kaggle比赛,房价预测。 可以先将未经优化的数据的预处理,模型的设计和...

2019-12-14 10:14:00 220 0

原创 动手学深度学习16- 深度学习的数值稳定性和模型初始化

衰减和爆炸 随机初始化模型参数 pytorch的默认随机初始化 Xavier随机初始化 小结 深度学习的数值稳定性问题以及模型参数的初始化方法。 深度学习有关数值稳定性的典型问题是衰减(vanishing) 和爆照(explosion) 衰减和爆炸 当神经网络层数较多时,模型的...

2019-11-16 20:08:00 40 0

原创 动手学深度学习15-深度学习-正向传播、反向传播和计算图

正向传播 反向传播 训练深度学习模型 小结 前几节里面我们使用了小批量随机梯度下降的优化算法来训练模型。在实现中,我们只提供了模型的正向传播的(forward propagation)计算,即对于输入计算模型输出,然后通过autograd模块来调用系统自动生成的bachward函数来计算梯度...

2019-11-16 11:03:00 61 0

原创 动手学深度学习14- pytorch Dropout 实现与原理

方法 从零开始实现 定义模型参数 网络 评估函数 优化方法 定义损失函数 数据提取与训练评估 pytorch简洁实现 小结 针对深度学习中的过拟合问题,通常使用丢弃法(dropout),丢弃法有很多的变体,本文提高的丢弃法特指倒置丢弃法(inverted dor...

2019-11-15 17:00:00 166 0

原创 转 深度学习—过拟合问题

1、过拟合问题   欠拟合:根本原因是特征维度过少,模型过于简单,导致拟合的函数无法满足训练集,误差较大;      解决方法:增加特征维度,增加训练数据;  过拟合:根本原因是特征维度过多,模型假设过于复杂,参数过多,训练数据过少,噪声过多,导致拟合的函数完美的预测训练集,但对新数据的...

2019-11-15 14:30:00 47 0

原创 动手学深度学习13-权重衰减

权重衰减 高维线性回归实验 从零开始实现 初始化模型参数 定义L2范数惩罚项 定义训练和测试 使用权重衰减 pytorch简洁实现 小结 上一节中提提到的过拟合现象,在模型的训练误差远小于测试集上的误差。虽然增大训练接数据集可以减轻过拟合,但是获得额外的训练数据往往代价过大,本节介绍过拟...

2019-11-11 14:14:00 45 0

原创 动手学深度学习12- 模型选择,欠拟合和过拟合

模型选择、欠拟合和过拟合 训练误差和泛化误差 模型选择 K折交叉验证 欠拟合和过拟合 模型复杂度 训练数据集大小 多项式函数拟合实验 定义、训练和测试模型 欠拟合 过拟合 小结 模型选择、欠拟合和过拟合 前几节给予Fashion_MNIST数据集的实验中,我们评价了机器学习模型在训...

2019-11-08 18:31:00 38 0

原创 markdown 希腊字母

字母名称 大写 markdown原文 小写 markdown原文alpha A A α \alphabeta B B β \betagamma Γ \Gamma γ \gammadelta Δ \Delta δ \deltaepsilon E E ϵ \epsilonε \varepsilonze...

2019-11-08 16:10:00 35 0

原创 动手学深度学习11- 多层感知机pytorch简洁实现

多层感知机的简洁实现 定义模型 读取数据并训练数据 损失函数 定义优化算法 小结 多层感知机的简洁实现 import torch from torch import nn from torch.nn import init import sys import numpy as np s...

2019-11-07 13:54:00 76 0

原创 动手学深度学习10- pytorch多层感知机从零实现

多层感知机 定义模型的参数 定义激活函数 定义模型 定义损失函数 训练模型 小结 多层感知机 import torch import numpy as np import sys sys.path.append('..') import d2lzh_...

2019-11-07 12:31:00 50 0

原创 动手学深度学习9-多层感知机pytorch

多层感知机 隐藏层 激活函数 小结 多层感知机 之前已经介绍过了线性回归和softmax回归在内的单层神经网络,然后深度学习主要学习多层模型,后续将以多层感知机(multilayer percetron,MLP),介绍多层神经网络的概念。 隐藏层 多层感知机在单层神经网络的基础上引入了...

2019-11-06 22:40:00 38 0

原创 动手学深度学习8-softmax分类pytorch简洁实现

定义和初始化模型 softamx和交叉熵损失函数 定义优化算法 训练模型 import torch from torch import nn from torch.nn import init import numpy as np import sys sys.path.append(...

2019-11-05 21:40:00 41 0

原创 动手学深度学习7-从零开始完成softmax分类

获取和读取数据 初始化模型参数 实现softmax运算 定义模型 定义损失函数 计算分类准确率 训练模型 小结 import torch import torchvision import numpy as np import sys import random import torchvis...

2019-11-05 18:07:00 51 0

原创 动手学深度学习6-认识Fashion_MNIST图像数据集

获取数据集 读取小批量样本 小结 本节将使用torchvision包,它是服务于pytorch深度学习框架的,主要用来构建计算机视觉模型。 torchvision主要由以下几个部分构成: torchvision.datasets:一些加载数据的函数以及常用的数据集的接口 torchvisio...

2019-11-02 23:10:00 134 0

原创 动手学深度学习5-softmax回归

softmax回归 softmax 回归模型 单样本分类的矢量计算表达式 小批量样本分类的矢量计算表达式 交叉熵损失函数 模型预测以及评价 小结 softmax回归 前几节介绍的是线性回归模型适用于输出连续值的情况,在另外一类情况下,模型输出的是一个图像的类别这样的离散值。对于离散值预测...

2019-11-01 15:56:00 24 0

原创 动手学深度学习4-线性回归的pytorch简洁实现

导入同样导入之前的包或者模块 生成数据集 通过pytorch读取数据 定义模型 初始化模型 定义损失函数 定义优化算法 训练模型 小结 本节利用pytorch中的模块,生成一个更加简洁的代码来实现同样的功能 导入同样导入之前的包或者模块 %matplotlib inline import to...

2019-10-31 23:31:00 25 0

原创 动手学深度学习3-从零开始完成线性回归

生成数据集 读取数据 初始化模型参数 定义模型 定义损失函数 定义优化算法 训练模型 在了解了线性回归的背景知识之后,我们可以动手实现该算法了。尽管强大的深度学习框架可以减少大量重复性工作,但是过于依赖它提供的便利,会导致我们很难深入理解深度学习是如何工作的。因此本节将介绍如何只利用T...

2019-10-31 00:22:00 26 0

原创 动手学深度学习2-深度学习基础

线性回归 线性回归的基本要素 模型定义 训练模型 模型预测 线性回归 线性回归输出是一个连续值,因此适用于回归问题。回归问题的实际中很常见,比如房屋价格预测,气温,销售额等连续值的问题。与回归问题不同,分类问题中的模型输出是一个离散值。我们所说的图像分类,垃圾邮件识别,疾病监测等输...

2019-10-29 22:15:00 12 0

原创 动手学深度学习1- pytorch初学

pytorch 初学 Tensors 创建空的tensor 创建随机的一个随机数矩阵 创建0元素的矩阵 直接从已经数据创建tensor 创建新的矩阵 计算操作 加法操作 转化形状 tensor 与numpy 的转化 数据在GPU上的操作 自动梯度求导 自动求导的概念 Function...

2019-10-27 21:05:00 24 0

原创 是时候解决 students's Test 假设检验(显著性检验)了

T test 由来已久 T 检验的概念 假设检验的步骤 假设检验可以分为三步: 建立检验假设和确定检验水准 单侧检验与双侧检验 选定检验方法和计算检验统计量 确定P值和做出推断结论 假设检验的两类错误 T test 由来已久 from scipy import stats impo...

2019-08-30 14:25:00 37 0

原创 stacking method house price in kaggle top10%

整合几部分代码的汇总 隐藏代码片段 导入python数据和可视化包 导入统计相关的工具 导入回归相关的算法 导入数据预处理相关的方法 导入模型调参相关的包 读取数据 特征工程 缺失值 类别特征处理-label转化 box-cox转换 one-hot categoy 特征 数据相关性 模...

2019-07-26 17:20:00 54 0

翻译 kaggle house price top 10%

kaggle 竞赛入门 对于刚刚入门机器学习的的同学来说,kaggle竞赛通常是他们学习和跟其他的全世界范围内的参赛选手切磋的一个大的平台,这个平台上提供了一些入门的竞赛,可以供刚入门的同学一展拳脚 本文针对房价预测的这个竞赛展开,从EDA,特征工程,到模型调参开始讲述一些竞赛中的小的tr...

2019-07-24 10:21:59 118 0

原创 kaggle house price

kaggle 竞赛入门 导入常用的数据分析以及模型的库 数据处理 Data fields 去除异常值 处理缺失值 分析 Utilities Exploratory Data Analysis Correlation matrix BsmtQual BsmtCond BsmtExplosur...

2019-07-24 09:53:00 53 0

原创 Mercari Price Suggestion in Kaggle

Mercari Price Suggestion 最近看到了一个竞赛,竞赛的内容是根据已知的商品的描述,品牌,品类,物品的状态等特征来预测商品的价格 最后的评估标准为 平均算术平方根误差Root Mean Squared Logarithmic Error. \[ \epsilon = \s...

2019-06-25 22:39:00 17 0

原创 pandas pivot_table或者groupby实现sql 中的count distinct 功能

pandas pivot_table或者groupby实现sql 中的count distinct 功能 pandas pivot_table或者groupby实现sql 中的count distinct 功能 import pandas as pd import numpy...

2019-03-28 11:47:00 947 0

原创 pandas功能使用rename, reindex, set_index 详解

pandas功能使用rename, reindex, set_index 详解 pandas rename 功能 在使用 pandas 的过程中经常会用到修改列名称的问题,会用到 rename 或者 reindex 等功能,每次都需要去查文档 当然经常也可...

2019-02-23 22:51:00 3659 0

原创 最近遇到的问题,待整理

最近遇到的问题,待整理 介绍在PE的产筛算法针对自己的项目,上采样,下采样如果适用? 自己项目中,Pandas处理样本数据量(百万级) 是否熟练适用sql,我回答说大部分是用的mongodb 是否适用过分布式图计算,大数据平台 t test 如何解释 显著...

2019-01-30 15:54:00 61 0

原创 pandas replace 替换功能function

pandas replace 替换功能function list like replace method dict like replace method regex expression import pandas as pd import nu...

2018-12-22 15:22:00 2005 0

原创 pandas 处理文本数据

pandas 处理文本数据 import pandas as pd import numpy as np 常规的字符串操作 s = pd.Series(['A',"B","C","AaB...

2018-12-11 23:42:00 555 0

原创 pandas 基础操作 更新

pandas 基础操作 更新 创建一个Series,同时让pandas自动生成索引列 创建一个DataFrame数据框 查看数据 数据的简单统计 数据的排序 选择数据(类似于数据库中sql语句) 另外可以使用标签来选择 通过位置获取数据 布尔值索引 设定数值(类似于sql...

2018-12-09 20:42:00 1071 1

原创 pandas 基础

pandas 基础 创建一个Series ,同时让pandas自动生成索引列 创建一个DataFrame数据框 查看数据 数据的简单统计 数据的排序 选择数据(类似于数据库中sql语句) 另外可以使用标签来选择 通过位置获取数据 布尔值索引 设定数值(...

2018-11-18 21:48:00 68 0

原创 机器学习-树模型理论(GDBT,xgboost,lightBoost,随机森林)

机器学习-树模型理论(GDBT,xgboost,lightBoost,随机森林) tree based ensemble algorithms 主要介绍以下几种ensemble的分类器(tree based algorithms) xgboost li...

2018-10-16 17:07:00 373 0

原创 GBDT 详解分析 转+整理

GBDT 详解分析 转+整理 GBDT DT 回归树 Regression Decision Tree 梯度迭代 GBDT工作过程实例 需要解释的三个问题 - 既然图1和图2 最终效果相同,为何还需要GBDT呢? - Gradient呢?不是“G”B...

2018-10-15 14:23:00 355 0

原创 kaggle homesite

kaggle homesite 时间格式的转化 查看数据类型 查看DataFrame的详细信息 填充缺失值 category 数据类型转化 模型参数设定 结论 该项目是针对kaggle中的homesite进行的算法预测,使用xgboost的skle...

2018-10-12 16:06:00 105 0

原创 美团店铺评价语言处理以及分类(tfidf,SVM,决策树,随机森林,Knn,ensemble)...

美团店铺评价语言处理以及分类(tfidf,SVM,决策树,随机森林,Knn,ensemble) 第一篇 数据清洗与分析部分 第二篇 可视化部分, 第三篇 朴素贝叶斯文本分类 支持向量机分类 支持向量机 网格搜索 临近法 决策树 随机森林 baggin...

2018-09-20 00:04:00 363 0

原创 Python变量访问权限控制

Python变量访问权限控制 oop1.py文件代码 # user/bin/python class Foo: def bar(self): print('ok') def hello(self, n...

2018-09-11 18:01:00 169 0

原创 加州房价预测数据预处理

加州房价预测数据预处理 目录 后续内容已经放在github上,篇幅过大就只能把数据预处理的部分整理在这里,然后把后续的算法的实现部分整理在github中 本文是该系列读书笔记的第二章数据预处理部分 获取数据 数据的初步分析,数据探索 地理分布 数据...

2018-09-07 09:45:00 1012 0

原创 flask下载文件中文IE,Edge,Safari文件名乱码

flask下载文件中文IE,Edge,Safari文件名乱码 flask(0.11.2)+python3.6 兼容各个主流浏览器,已经过各种测试(chrome,firefox,safari,IE,Edge) quote是将文件名urlencode化,然后以...

2018-08-30 11:22:00 76 0

提示
确定要删除当前文章?
取消 删除