自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(138)
  • 收藏
  • 关注

原创 关于ArchLinux和manjaro在安装opencv时的过程与踩坑

关于ArchLinux和manjaro在安装opencv时的过程与踩坑下载opencv安装依赖包编译安装配置opencv环境测试版本安装环境进行测试下载opencv可以直接从Github上拉项目下来,Opencv下载链接.安装依赖包sudo pacman -S cmakesudo pacman -S gitsudo pacman -S base-develsudo pacman -S gtk2sudo pacman -S pkg-configsudo pacman -S pythonsu

2020-06-12 14:35:06 893

原创 卷积神经网络AlexNet-VGG-GoogLeNet详解

文章目录深度卷积神经网络(AlexNet)AlexNet载入数据集训练使用重复元素的网络(VGG)VGG11的简单实现⽹络中的⽹络(NiN)GoogLeNetGoogLeNet模型深度卷积神经网络(AlexNet)LeNet: 在大的真实数据集上的表现并不尽如⼈意。1.神经网络计算复杂。2.还没有⼤量深⼊研究参数初始化和⾮凸优化算法等诸多领域。机器学习的特征提取:手工定义的特征提取函数...

2020-02-24 16:38:32 322

原创 卷积神经网络---LeNet

文章目录Convolutional Neural NetworksLeNet 模型获取数据和训练模型总结:Convolutional Neural Networks使用全连接层的局限性:图像在同一列邻近的像素在这个向量中可能相距较远。它们构成的模式可能难以被模型识别。对于大尺寸的输入图像,使用全连接层容易导致模型过大。使用卷积层的优势:卷积层保留输入形状。卷积层通过滑动窗口将同...

2020-02-21 16:11:23 180

原创 卷积神经网络---CNN基础组件认识

卷积神经网络基础本节我们介绍卷积神经网络的基础概念,主要是卷积层和池化层,并解释填充、步幅、输入通道和输出通道的含义。二维卷积层本节介绍的是最常见的二维卷积层,常用于处理图像数据。二维互相关运算二维互相关(cross-correlation)运算的输入是一个二维输入数组和一个二维核(kernel)数组,输出也是一个二维数组,其中核数组通常称为卷积核或过滤器(filter)。卷积核的尺寸通...

2020-02-21 14:25:54 487

原创 梯度消失和梯度爆炸

文章目录梯度消失、梯度爆炸如何解决梯度消失和梯度爆炸问题随机初始化模型参数PyTorch的默认随机初始化Xavier随机初始化考虑环境因素协变量偏移标签偏移概念偏移梯度消失、梯度爆炸梯度消失和梯度爆炸考虑到环境因素的其他问题深度模型有关数值稳定性的典型问题是消失(vanishing)和爆炸(explosion)。当神经网络的层数较多时,模型的数值稳定性容易变差。假设一个层数为LLL...

2020-02-21 14:19:34 189

原创 自然语言处理---文本预处理

文章目录文本预处理读入文本分词建立字典将词转为索引用现有工具进行分词文本预处理文本是一类序列数据,一篇文章可以看作是字符或单词的序列,本节将介绍文本数据的常见预处理步骤,预处理通常包括四个步骤:读入文本分词建立字典,将每个词映射到一个唯一的索引(index)将文本从词的序列转换为索引的序列,方便输入模型读入文本我们用一部英文小说,即H. G. Well的Time Machine...

2020-02-19 10:48:55 600

原创 线性回归-softmax分类-多层感知机-模型选择和优化问题

文章目录线性回归算法实现的基本要素模型数据集损失函数优化函数 - 随机梯度下降softmax的基本概念分类问题权重矢量神经网络图类别输出问题小批量矢量计算表达式交叉熵损失函数多层感知机的基本知识隐藏层表达公式激活函数模型选择、过拟合和欠拟合训练误差和泛化误差模型选择验证数据集K折交叉验证过拟合和欠拟合模型复杂度训练数据集大小解决过拟合和欠拟合的方法线性回归算法实现的基本要素模型线性回归假设...

2020-02-15 11:17:10 559

原创 Haar-like特征计算和积分图详解

目录1. 前言2. Haar-like特征做检测的基本步骤3. Haar-like特征4. 积分图计算原理解析(一目了然)5. Haar-like特征值计算(积分图应用)1. 前言目前人脸检测的方法主要有两大类:基于知识和基于统计。基于知识的方法:主要利用先验知识将人脸看作器官特征的组合,根据眼睛、眉毛、嘴巴、鼻子等器官的特征以及相互之间的几何位置关系来检测人脸。主要包括模板匹配、人脸特征、...

2020-01-13 19:35:03 1901 1

原创 传统目标检测算法

文章目录传统目标检测算法Viola-Jones方法(人脸识别)Haar特征抽取训练人脸识别分类器(adaboost分类器)滑动窗口HOG + SVM (行人检测、opencv实现)HOG特征优点HOG特征提取算法的主要流程DPM(物体检测)DPM特征提取方法DPM描述子的检测过程非极大值抑制算法参考博客:DPM(Deformable Part Model)原理详解目标检测的图像特征提取之(一...

2019-12-22 17:20:42 2028

原创 四、图像增强系列------线性增强

文章目录线性增强基本算法python实现线性增强基本算法效果图如下分段线性变换python实现分段线性变换分段线性变换效果图线性增强统计量算法线性增强基本算法python实现线性增强基本算法import cv2 as cvimport numpy as npimport matplotlib.pyplot as plt#### 线性增强基本算法# 绘制直方图函数def grayH...

2019-12-09 18:09:21 550

原创 三、数字图像的卷积计算python实现

利用python实现数字图像的卷积import cv2import numpy as npimport mathimport osimport pandas as pdfrom tqdm import tqdm### 首先将图片转化为灰度图像image = cv2.imread("peng.png")def rgb2gray(image): h = image.shap...

2019-12-09 17:52:16 1067 4

原创 SQL server建表操作

SQL server建表操作利用代码创建数据表效率更高。。。废话不多说,上代码create table xsqk(学号 char(6) NOT NULL primary key,--设置主键姓名 char(8) NOT NULL unique,性别 Bit NOT NULL check(性别=0 or 性别 =1),出生日期 Smalldatetime NOT NULL,所在系 c...

2019-12-03 21:58:48 585

原创 SQL server简单查询和汇总查询

文章目录SQL server简单查询和汇总查询涉及单表的简单查询涉及单表的汇总查询SQL server简单查询和汇总查询难得自己写一次实验报告。涉及单表的简单查询a. 在KC表中,查询第2学期开课的课程、授课教师b. 在XSQK表中,查询女同学的姓名和电话号码c. 在XS_KC表中,查询成绩在80分以上的学号、课程号和成绩d. 在XS_KC表中,查询在80以上和不及格学生的信息...

2019-12-03 21:52:32 1175

原创 CNN模型分析 | 4 Network In Network

ZFNet网络综述前言卷积神经网络(CNN)由卷积层和池化层交替组成。卷积层使用线性滤波器和底层receptive field做内积,然后接一个非线性的激活函数,得到的输出称作特征图(feature map)。CNN的卷积滤波器是底层数据块的广义线性模型(generalized linear model )(GLM),而且我们认为它的抽象程度较低。这里的抽象较低是指该特征对同一概念的变体是...

2019-12-02 20:14:36 128

原创 图像处理中的卷积、池化、反卷积和反池化的理解与思考

文章目录卷积的理解池化的理解反卷积的理解反池化的理解卷积的理解关于卷积在二维离散图像的可视化理解:对于卷积过程中各个变量的定义:输入图像的尺寸为I图像外围的0填充padding为p卷积核的尺寸为k卷积核移动的步长stride表示为s输出图像表示为O如上图所示,I = 5,p=1,k=3,s = 1进行卷积提取图像当中的特征,计算公式为:O = (I − k + 2p )/...

2019-12-01 15:08:35 694

原创 CNN模型分析 | 3 ZFNet

文章目录ZFNet网络AlexNet网络的设计思想主要设计贡献ZFNet对AlexNet网络进行的调整ZFNet网络的核心架构反卷积和反池化ZFNet网络ZFNet,Matthew D Zeiler在2013年发表卷积网络模型AlexNet网络的设计思想主要设计贡献可以理解为只是对AlexNet网络进行了微调使用新颖的可视化技术来一窥中间特征层的功能,以及分类的操作利用反卷积和反池...

2019-11-30 18:19:25 134

原创 CNN模型 | 1 LeNet

前言最近几天闲得慌,然后突发奇想,决定整理最常用卷积神经网络,废话不多说,进入正题。文章目录LeNet网络LeNet的设计思想LeNet网络的核心结构传统网络的全连接FCkeras实现LeNet网络PyTorch实现LeNet网络LeNet网络LeNet的设计思想LeNet是在1998年由LeCun提出,3层神经网络,具备卷积层、Pooling层、FC网络、Sigmod层等,是现在各大变种...

2019-11-30 15:52:32 87

原创 二、图像二值化方法(python)---阈值全局固定、大津法

图像二值化也叫做图像阈值化处理,通过设定某个阈值为门限,把多灰度级的图像转化为仅仅有两个极端的灰度级(0和255)。阈值全局固定import cv2import matplotlib.pyplot as pltimport numpy as npimport mathimport osimport pandas as pdfrom tqdm import tqdmimage =...

2019-11-26 18:45:30 3717 2

原创 一、图像直方图显示(python)

图像处理中绘制图像直方图往往是观察和处理图像的利器之一。直方图的观察方面的基本知识:横坐标代表着灰度级、纵坐标是该灰度值在图像中出现的概率或者次数。直方图的型态为斜态和峰态,斜态指的是直方图的不对称的程度,峰态表示的是直方图的分布在均值周围的集中程度。直方图可以基本上反映出图像对比度的基本情况。直方图的基本性质直方图没有位置信息。直方图反映了总体灰度分布。直方图具...

2019-11-26 17:26:58 6268

原创 利用python实现对连续特征的分箱操作(数据离散化)

1. 数据分箱1.1 等区间分箱将连续变量的值进行获取,然后利用pandas的cut函数进行等区间分箱。如下代码,获取值A2_values ,并等数值区间分为6类为[0,1,2,3,4,5];(cut在操作时,统计了一维数组的最小、最大值,得到一个区间长度,因为需要划分6个区间)1.2 等频分箱将连续变量在[min,max]区间内,等数量地进行分箱。1.3 卡方分箱法(ChiMe...

2019-11-25 11:53:11 4006 1

原创 常用python科学计算库汇总

import numpy as np import pandas as pd import matplotlib.pyplot as pltimport seaborn as snsimport lightgbm as lgbimport xgboost as xgbimport catboost as cbfrom tqdm import tqdmimport category_...

2019-11-16 10:41:19 2200 2

原创 类别特征的各种处理总结

持续更新。。。文章目录one-hot(独热)编码为什么要独热编码?为什么特征向量要映射到欧式空间?独热编码优缺点什么情况下(不)用独热编码?什么情况下(不)需要归一化?one-hot编码为什么可以解决类别型数据的离散值问题Tree Model不太需要one-hot编码独热编码的编程实现LabelEncoder编码LabelEncoder编码的编程实现计数编码(频率编码)one-hot(独热)编...

2019-10-23 16:18:06 1876 2

原创 关于Pandas使用的一些查漏补缺

最近闲来无事,决定刷一刷kesci和鲸平台的一套关于pandas的一套练习题,这是我所见过学习和练习入门pandas的最佳资料,推荐各位初学者可以去刷一刷,相见恨晚呐!资料链接: 这十套练习,教你如何使用Pandas做数据分析 .练习一:步骤9 被下单数最多商品(item)是什么?练习二:步骤8 对数据框discipline按照先Red Cards再Yellow Cards进行排序...

2019-10-23 10:48:15 99

原创 类别变量赋予唯一的数字ID

为每个类别变量赋予唯一的数字IDsklearn.preprocessing.LabelEncoder的使用from sklearn import preprocessingfrom sklearn.ensemble import GradientBoostingRegressor# from sklearn import cross_validation, metricsfrom skl...

2019-10-16 17:58:20 140

原创 numpy中的np.where()函数

np.where(条件),若条件满足,返回索引值np.where(条件,x,y),若条件满足,返回x,否则返回y

2019-10-09 11:38:49 2873

原创 利用pytorch实现多分类器

%matplotlib inline训练分类器就是这个。您已经了解了如何定义神经网络,计算损耗并更新网络权重。现在你可能在想数据怎么样?通常,当您必须处理图像,文本,音频或视频数据时,您可以使用标准的python包将数据加载到numpy数组中。然后你可以将这个数组转换成一个torch.*Tensor。对于图像,Pillow,OpenCV等软件包很有用对于音频,包括scipy和li...

2019-09-10 17:57:27 4592 1

原创 关于pytorch中torch.utils.data的认识

torch.utils.dataclass torch.utils.data.Dataset表示Dataset的抽象类。所有其他数据集都应该进行子类化。所有子类应该override__len__和__getitem__,前者提供了数据集的大小,后者支持整数索引,范围从0到len(self)。class torch.utils.data.TensorDataset(data_tensor,...

2019-09-10 17:37:57 2186

原创 利用Pytorch复现ResNet34网络

根据残差网络的官方论文可知:ResNet34的计算图如下:利用pytorch实现的代码如下:import numpy as npimport torchimport math# import torchimport torchvisionimport torch.nn as nnimport torch.nn.functional as Fimport torchvision...

2019-08-29 18:05:41 437

转载 【lightgbm/xgboost/nn代码整理一】lightgbm做二分类,多分类以及回归任务

1. 简介内心一直想把自己前一段时间写的代码整理一下,梳理一下知识点,方便以后查看,同时也方便和大家交流。希望我的分享能帮助到一些小白用户快速前进,也希望大家看到不足之处慷慨的指出,相互学习,快速成长。我将从三个部分介绍数据挖掘类比赛中常用的一些方法,分别是lightgbm、xgboost和keras实现的mlp模型,分别介绍他们实现的二分类任务、多分类任务和回归任务,并给出完整的开源pytho...

2019-08-25 11:46:49 7254

转载 【lightgbm/xgboost/nn代码整理二】xgboost做二分类,多分类以及回归任务

转载知乎专栏ML与DL成长之路,作者QLMX链接https://zhuanlan.zhihu.com/p/766155071.简介该部分是代码整理的第二部分,为了方便一些初学者调试代码,作者已将该部分代码打包成一个工程文件,包含简单的数据处理、xgboost配置、五折交叉训练和模型特征重要性打印四个部分。数据处理部分参考:代码整理一,这里只介绍不同的部分。本文主要是介绍一些重点的参数部分...

2019-08-25 11:36:00 2278

原创 数据分析中常用的时间序列日期分割方法

提取出日期数据中的年月日在数据分析任务中经常会遇到时间数据(比如20190825或者2019-08-25)那么该如何对数据中的年月日进行分离呢?

2019-08-25 11:17:12 4357

原创 可汗学院统计学(二)

6. 泊松分布考虑这样一个问题:一个小时内经过某路口的车辆数的概率。由于车辆经过一个路口是一瞬间的事,因此,可以把这个问题看成:在n个瞬时中,有k个瞬时有车经过路口的概率。设车经过路口的概率为p,则这个问题是一个n趋近于无穷大时的二项分布问题。假设已知泊松分布的期望为λ\lambdaλ。则E(X)=λ=np,p=λnE(X)=\lambda=n p, \quad p=\frac{\lambda...

2019-08-07 20:52:50 211

原创 如何保存已经训练好的机器学习模型

机器学习中如何保存已经训练好的模型当我们训练好一个model后,下次如果还想用这个model,我们就需要把这个model保存下来,下次直接导入就好了,不然每次都跑一遍。sklearn官网提供了两种保存model的方法:1.使用python自带的pickle from sklearn.ensemble import RandomForestClassifier from skl...

2019-08-07 15:22:17 9929

原创 CNN模型分析 | 5 利用Pytorch复现VGG-16网络

利用Pytorch复现VGG-16网络:根据吴恩达老师在深度学习课程中的讲解,AlexNet网络的基本流程为:代码如下:import mathimport torchimport torchvisionimport torch.nn as nnimport torch.nn.functional as Fimport torchvision.models as modelsfr...

2019-08-06 20:49:22 1098 3

原创 可汗学院学习总结(一)

1.总体(Population)与样本(Sample)总体是研究对象的整体,通常数目很大,直接对总体进行分析费时费力。因此通过对总体进行抽样得到可以代表总体的样本。一般都是采用样本估计总体的方式,毕竟总体数量太大,将总体可划分为训练集,验证集和测试集。2.均值(mean)令总体数为N,样本数为n,每一个样本的取值用表示xix_{i}xi​,则:总体均值:μ=1N∑i=1Nxi\mu...

2019-08-05 21:00:45 434

原创 Pandas中关于set_index和reset_index的用法

set_indexDataFrame可以通过set_index方法,可以设置单索引和复合索引。DataFrame.set_index(keys, drop=True, append=False, inplace=False, verify_integrity=False)append添加新索引,drop为False,inplace为True时,索引将会还原为列In [1]: dataOu...

2019-08-05 15:57:27 253

原创 在数据分析过程中对合并的训练集和测试集进行标记

一、对训练集和测试集进行标记后合并df = pd.concat([train.assign(is_train = 1),test.assign(is_train = 0)]) #合并train和test,并且用is_train进行标记这样做的好处是能够将合并后的数据集将训练集和测试集分开来进行标记。二、利用好这一特征更好的做分析例如:train = df['is_train'] == ...

2019-08-03 19:40:01 1614

原创 itertools模块中的product方法

itertools.product(*iterables[, repeat])笛卡尔积创建一个迭代器,生成表示item1,item2等中的项目的笛卡尔积的元组,repeat是一个关键字参数,指定重复生成序列的次数。代码示例如下:import itertoolsa = (1, 2, 3)b = ('A', 'B', 'C')c = itertools.product(a,b)for ...

2019-07-30 15:52:20 391

原创 关于在数据建模中python库tqdm的使用

有时候跑循环处理大数据需要很长的时间,维持tqdm可以是一个监控器的作用,形成可视化的进度条,使用起来非常方便。方法一:方法二:

2019-07-30 10:41:33 98

原创 时间序列的基本知识

1、时间图对于时间序列数据而言,我们从最简单的时间图开始。时间图是用将观测值与观测时间点作图,散点之间用直线连接。例如图2.1表示在澳大利亚两个最大的城市之间,Ansett航空公司的每周客流量。例如以下图形:该时间图直观地展现出数据具有的一些特征:由于1989年当地的工业纠纷,当年的客流量为0.在1992年中,由于一部分经济舱被商务舱取代,导致客流量大幅减少。1991年下半年客流量...

2019-07-27 17:58:48 1156

空空如也

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除