英俊强健-CSDN博客

原创 ML-Data Processing数据预处理

数据预处理数据集分割sklearn.model_selection.train_test_split(*arrays, **options)手写train_test_split底层数据集分割sklearn.model_selection.train_test_split(*arrays, **options)参数*arrayslist/np.array/mat...

2020-09-09 22:58:17 377

原创 DL(4) - 卷积神经网络ResNet/DenseNet之keras实作 (下)

卷积神经网络keras实作ResNetMobileNetDenseNetEffectionNet数据 oxflower17 ，使用keras实作 ResNet，MobileNet，DenseNet，EffectionNetResNetMobileNetDenseNetEffectionNet

2020-02-11 16:47:11 1964

原创 DL(6)-图像分割网络Unet和Unet++详解实作

Unet 和 Unet++Unet自从2015年，全卷积网络(FCN)诞生，图像分割在深度学习领域掀起旋风，同年稍晚Unet诞生，号称可用极少数据获取优质的结果，在数据可贵的医疗影像领域称王称霸。2018年对Unet的改进Unet++诞生。除了DeepLap、PSPNet等其他优质的图像分割网络，Unet...

2020-02-10 21:32:58 14850 4

原创 DL(5) - ModelCheckPoint 和 EarlyStopping 详解(你不知道的细节)

ModelCheckPoint 和 EarlyStopping 详解ModelCheckPointAPI：tf.keras.callbacks.ModelCheckpoinEarlyStoppingAPI：tf.keras.callbacks.EarlyStoppingModelCheckPointAPI：tf.keras.callbacks.ModelCheckpoin作用：按固定...

2020-02-07 10:28:00 2967 2

原创记一次完整的机器学习竞赛经历

此次竞赛的题目为‘信用卡盗刷侦测’，主办方收集120天信用卡交易数据，0-90天作为训练集，90-120天作为测试集，去除label共22个可用特征。首先定义此题为二分类问题，且正负样本通常会极度不均衡。

2020-02-06 22:14:02 978

原创 ML(12) - XGBoost / LightGBM 参数及用法详解

XGBoost / LightGBM / CatBoost 参数及用法详解

2020-02-06 22:13:03 3300 1

原创 ML(10) - 模型训练技巧

模型技巧交叉验证网格搜索Pipeline偏差(Bias)和方差(Variance)模型正则化(Regularization)正则化基本概念正则化种类(scikit-learn)交叉验证网格搜索Pipeline偏差(Bias)和方差(Variance)模型误差 = 偏差(bias)+方差(variance)+不可避免误差不可避免的误差通常指客观存在且不可避免，最典型的例子即采集...

2020-02-06 22:12:20 588

原创 DL(3) - 卷积神经网络AlexNet/VGGNet/InceptionNet之keras实作 (上)

卷积神经网络keras实作VGGNetResNetInceptionNetMobileNetDenseNetEffectionNet-数据 CIFAR10 ，使用keras实作VggNet，ResNet，InceptionNet，MobileNet，DenseNet，EffectionNetVGGNetResNetInceptionNetMobileNetDenseNetEffec...

2020-02-06 22:11:56 569

原创 DL(2) -卷积神经网络(CNN)

卷积神经网络基本概念基本结构基本概念处理图像分类问题，而诞生的具有一系类特殊操作的神经网络。普通神经网络即由多层(N个神经元)构成。对于图像来说，如果采用普通神经网络将会面临模型参数量巨大的问题。大量的参数会增加巨大训练需求，也容易造成过拟合。同样，过多参数容易使神经网络模型收敛到一个较差的局部极值。Eg: 对于一副图像，假设大小1000∗10001000 * 10001000∗100...

2020-02-06 22:11:35 348

原创 DL(1) - 神经网络基本概念

神经网络基本概念神经元结构神经元结构神经元：神经网络的最小单元，每个神经元其实都是由两部分组成：数学模型(Wixi+bW_{i}x_{i}+bWixi+b)和激活函数h(t)h(t)h(t)。如下图：单神经元网络，n个输入信号(图中是3个)，这些信号通过带权重和偏移量的数学模型计算再经过激活函数处理，最终产生神经元的输出。(WWW 为权重，bbb 为偏移量，fff即hhh 为激...

2020-02-06 22:11:02 829

原创 ML(9) - EnsembleLearing集成学习

集成学习集成学习基本概念Bagging基本概念Boosting集成学习基本概念训练多个学习器，对同一样本预测，再用某种结合策略将各学习器结合起来，得出最终预测结果。集成学习的一般结构：同质集成(homogeneous)：学习器使用的算法都是相同类型，例如全使用决策树算法。单个学习器称为 ‘基学习器’ 或 ‘基学习算法’。异质集成(heterogenous)：学习器使用的算法类型不...

2019-10-26 20:16:14 472

原创 ML (8) - DesicionTree决策树

决策树决策树基本概念选取划分特征算法信息熵 (Information Entropy)信息增益 (Information Gain)增益率 (Gain Ratio)选取划分特征方式决策树基本概念通过一系列节点判断，得到最终的结果。例如鸢尾花数据集，仅取两个特征：决策树为非参数学习算法，天然的可解决多分类问题，不需使用OvR、OvO等策略。同样也可以解决回归问题。构建一个决策树，主...

2019-10-26 20:15:49 609

原创 ML(7) - SVM支撑向量机

SVMSVM基本概念SVM数学模型Hard Margin SVMSoft Margin SVMScikit-Learn中的SVM(线性)API：sklearn.svm.LinearSVC多项式特征(解决非线性问题）SVM核模型SVM基本概念Support Vector Machine 作为主要的二分类算法，其直接将对模型泛化能力的考量融入了算法内部。目标：找到一条决策边界，这条决策边界要...

2019-09-27 10:59:43 475

原创 ML(6)-Evaluate模型评估方法

评估方法线性回归算法评估方式MSE/RMSE/MAE/R Squaredscikit-learn中的MSE/MAE/R Squared分类算法评估方式准确率(accuracy)混淆矩阵查准率(precision)查全率(recall)F1 Scorescikit-learn中的API画混淆矩阵查全率和查准率的平衡(PR曲线)ROC曲线及其面积AUC线性回归算法评估方式MSE/RMSE/...

2019-09-27 10:59:19 2794

原创 ML(5) - LogisticRegression逻辑回归

逻辑回归LogisticRegression基本概念LogisticRegression模型公式LogisticRegression损失函数LogisticRegression梯度下降梯度下降公式推导手写LogisticRegressionScikit-Learn中的LogisticRegressionAPI：sklearn.linear_model.LogisticRegression多项式逻辑...

2019-08-31 14:11:46 628

原创 ML(2)- LinearRegression线性回归(正规方程)

LinearRegression正规方程线性回归基本概念单变量线性回归正规方程线性回归基本概念什么是线性？变量之间关系是一次函数，图像为一条直线。什么是回归？将变量之间的关系归结于一个值(直线)。线性回归预测，通过样本特征的线性组合来进行预测的函数，即用多个变量X来预测Y。特征之间是线性相关的。基本形式：f(x)=w1x1+w2x2+w3x3+...wdxd+bf(x) = ...

2019-08-29 11:42:02 661

原创 ML(4) - LinearRegression多项式回归(非线性)

多项式回归多项式回归基本概念Scikit-Learn中多项式回归关于PolynomialFeatures多项式回归基本概念对于线性回归，数据都是线性的，目标是寻找一条直线，尽可能的拟合样本。但实际任务中，数据往往是非线性，因此对线性回归算法进行一些转换改造，即多项式回归。多项式回归中，数据不太具有线性关系，因此应寻找一些非线性曲线去拟合。如下图，用一条二次曲线去拟合数据，效果更好。...

2019-08-23 14:25:48 1949

原创 ML(6) -Evaluate模型评估方法

评估方法线性回顾算法评估指标MSE/RMSE/MAE/R Squaredscikit-learn中的MSE/MAE/$R^2$线性回顾算法评估指标MSE/RMSE/MAE/R Squared 均方误差MSE（mean squared error）: mse=∑i=1m(y^i−yi)2mmse = \frac{\sum_{i=1}^m(\hat y_{i} - y_{i})...

2019-08-21 21:42:52 316

原创 ML(3)- LinearRegression线性回归(梯度下降)

LinearRegression梯度下降梯度下降基本概念梯度下降算法手写梯度下降算法梯度下降基本概念是一种基于搜索的最优化方法。作用：最小化一个损失函数。线性回归损失函数：J(θ)=1m∑i=1m(yi^−yi)2J(\theta) = \frac{1}{m}\sum_{i=1}^m(\hat{y_{i}}-y_{i})^2J(θ)=m1∑i=1m(yi^−yi)2梯度下降...

2019-08-18 11:41:04 1115

原创 ML(1)-K nearest neighbor(KNN)

KNN分类算法KNN分类算法基本概念sciki-learn中的KNN手写KNN底层实现KNN总结KNN分类算法基本概念1.被分类的样本，通过看其周围邻近K个样本的类别，以投票方式决定此样本属于哪一类别。图中，k = 3，绿色的样本通过看周围3个样本的种类，将被归为蓝色。2.样本邻近距离计算方式：　对于a、b两个样本之间的距离,样本的特征数即构成样本坐标空间的维数。欧拉距离公式(每个样...

2019-08-17 01:17:55 368

原创 Matlab 02 ------ 脚本程式(script)

Matlab脚本程式与C/C++程式相似，需存成<file>.m文件。可以是自定义的function(保存文档名应与方法名一致)，也可以是简单逻辑运算。 Tips: 对于脚本中使用的变数，在重复运算时，建议在工作空间清空老的值，避免出现错误。使用数组之类容器是，尽量先声明，创建空间。加快程式运行速度。 ctrl + c 强行终止执行程式。若指令太长，用 ...

2019-01-08 16:06:50 1178

原创 Matlab 01 ------ 基础｜数组｜矩阵

常用函数方法指令链接：基本指令链接：https://ww2.mathworks.cn/help/matlab/functionlist.html 三角函数相关：https://ww2.mathworks.cn/help/matlab/trigonometry.html 算术运算相关：https://ww2.mathworks.cn/help/matlab/arithmetic.htm...

2019-01-07 19:33:03 294

原创 JAVA 之【框架基础】 ------------ Struts2

框架就是一个模板，保持不变。许多繁琐固定的操作(代码)它帮你做了，我们要做的就是对其添砖加瓦。要使用框架就必须遵守框架的规则。对于web应用，最常用的一个框架就是Struts2。Struts2帮我们完成：将用户请求映射到一个java类；获取用户提交的数据；将数据返回前端；控制视图跳转等，不再需要自己写servlet来做这些事情。我们只要做一件事，就是编写处理业务的方法。要struts2帮我们做...

2019-01-01 23:36:45 136

原创 JAVA 之【web编程基础】 ------------ Servlet

Java 最开始是没有做网络应用程序的功能，为了适应网络应用程序的时代发展，sun公司就开发出了一套API来支持web开发。这个API就是Servlet，Servlet本质就是一个java类，通常通过HTTP接收和响应来自Web客户端请求。做web开发，实现一个Servlet有三种方式：实现Servlet接口；继承GenericServlet;类继承HttpServlet类；通常...

2019-01-01 20:22:05 224

原创 C语言基础知识 ---------- 网络编程(Socket、多线程(thread))

先总结下socket创建流程：服务端：创建套接字(socket)：int Ser_socket = socket(AF_INET, SOCK_STREAM, 0); 绑定套接字(bind)：int resp = bind(Ser_socket, (struct sockaddr *)&addr, sizeof(addr)); addr 为服务端地址结构变量(sockaddr_i...

2018-12-27 12:30:34 5774

原创图像处理(Image Processing) ---------- 灰阶位图分割 (bit-plane slicing)（浮水印)(C#实现)

灰阶图像，通常每个Pixel是由8个bit构成，即有256种变化。然而每个Pixel的8个bit，从最高位到最低位携带的信息量是逐渐递减的。可以看下面几幅图：右边是原图，下面就是将灰阶图每一个pixel的8bit分别取出，然后构成的8个平面，从右到左是0bit - 7bit 。可以看出越高位的位图携带原图的信息量越多、特征越多，甚至最后几张位图看上去就像杂讯。所以，其实最后几个位图...

2018-12-26 20:46:05 8584

原创图像处理(Image Processing) ---------- 大津二值化 (Otsu‘s)(C#实现)

图像的二值化，通常指灰阶图像转化为二值图像，二值图像即一个pixel只有两种变化全暗(0)或者全亮(255)，单独记录二值图像的话就每个Pixel只要1bit就足够了，0或1。要将一个灰阶图像二值化，你就要能够很好的区分哪些是背景、哪些是前景，或者说哪一部分该变全暗哪一部分该变全亮。这就需要找到一个最好Threshold(阀值)，把大于这个阀值的灰度值极大化(全亮)，小于这个阀值的灰度值极小化...

2018-12-26 19:33:15 2696 3

原创图像处理(Image Processing) ---------- 对比拉伸 (Contrast Stretching)(C#实现)

对比拉伸也就是灰度拉伸，主要是通过改善图像灰度级的动态范围，來改善的图像品质。如下图：将原灰度集中拉升到均匀提升图像品质。对比拉伸的本质是使用分段函数进行的线性变换，如下图：输出图像通过牺牲 0 ~ r1 和 r2 ~ L-1 的灰度级，来使s1 ~ s2的灰度级动态范围增加，达到改善图像此区域的的品质。三段线性拉伸的公式：假定要将原图 r1 - r2 的区域...

2018-12-25 23:22:58 6703

原创图像处理(Image Processing) ---------- 碎形压缩(Fractal)(C#实现)

网上很少关于Fractal压缩的质料，特此记录。先说说自然界事物构成的一种潜在规则。自然界中一切事物的构成都具有巨大的相似性，包括:山、花、树、人、车 ......。当你仔细观察一个物体时就会发现，此物体许多部分都是由同一个细小的结构构成。下图人造栗子：一个大的形状可由四个小的相同形状图形构成。四个小的形状又是由更小的相同形状构成。因此物体是可以通过找寻其中某种细小的结构，...

2018-12-25 16:46:19 1371 1

原创图像处理(Image Processing) ---------- 图像和影像压缩(Compression)(C#实现)

空间域压缩：Fractal Coding ：https://blog.csdn.net/weixin_35811044/article/details/84349624 Run Length Coding:图像中连续出现的相同Pixel，只记录一个但需多一个符号记录其出现的次数，无损压缩。Ex.111110000003355 --> 51602325。 PCX图像就是采用此压缩方式...

2018-12-18 22:28:25 2165

原创图像处理(Image Processing) ---------- 直方图均衡化 (Equalization)(C#实现)

说到直方图均衡化，首先提一提概率论的知识。概率论：离散型随机变量：能用日常使用的量词度量的随机变量。概率函数：形如 P(x = 1) = 1/6; 概率分布：概率分布函数： . (累积概率函数) 连续...

2018-12-18 21:57:19 2608

原创 C语言基础知识 ---------- 指针(pointer)、结构(structure)、字串(Char)

指针(pointer)指针变量是一种特殊的变量，此变量存储的内容不是普通值(int double char......)而是其它变量的地址(address)。指针宣告：资料形态 *变量名 ----> int *ptr 、 char *ptr 、double *ptr ......。取址算子： &变量名 ----> int s...

2018-12-07 21:52:50 9385

原创区块链1.0学习心得（下）

比特币深入：独立验证：产生的交易将被发送到比特币网络临近的节点，在交易传递到临近的节点时，每一个收到交易的比特币节点将会先验证该交易，以确保只有有效的交易才会在网络中传播，而无效的交易将会在第一个节点处被废弃。每一个节点在校验每一笔交易时，都需要对照一个长长的标准清单：▷交易的语法和数据结构必须正确。▷输入与输出列表都不能为空。▷交易的字节大小是小于MAX_BLOCK_SI...

2018-11-26 00:52:03 6135 1

原创区块链1.0学习心得（中）

2.区块(block)：比特币区块就是比特币交易的集合，由矿工创建，然后收集比特币交易放入区块中。一个区块大小限制为1 Mbyte，平均一个比特币交易至少是250Byte，所以一个区块最多可容纳4000左右个交易。区块结构：大小字段描述 4 Byte 区块大小用字节表...

2018-11-26 00:33:54 1315

原创区块链1.0学习心得（上）

区块链概念：如何证明一个事物是真实存在？怎么证明一份合同是真的？你的房子就是你的吗？人有百口，就算白纸黑字也会有造假的时候，因此“第三方”权威机构就诞生了，由可信赖的第三者来证明一件事物的真实存在，如：政府、银行等。但我们知道历史是胜利者书写的，规矩也是权威者定义的，书是可以焚烧的，签章是可以从写的，公证人员也是可以买通，人性是无法违背的。所以，世界上没有任何东西是可以绝对信任的，...

2018-11-26 00:18:25 6243

原创计算机结构(Computer Architecture) --------- 缓存（Cache & TLB）

简介： Build memory as a hierarchy of levels, with the fastest memory close to the processor, and the slower, less expensive memory below that. Four major technologies used to construct memory ...

2018-11-24 15:54:54 4628

原创计算机结构(Computer Architecture) --------- 基础知识（Basic Knowledge）

Turing Machine： The idea of a universal computational device was first described by Alan Turing in 1937. Von Neumann Model: Computers built on the von Neumann model divide the computer hardware ...

2018-11-24 13:54:17 1692

原创图像处理(Image Processing) ---------- 图像滤波器 (上) (C#实现)

讲到图像处理的滤波器，就不得不先提图像中的低频分量和高频分量：图像的频率代表了，图像颜色变化的剧烈程度。低频分量：一幅图中，颜色变化缓慢的部分就叫做低频部分。通常低频是描述图像的主要部分，就像人的脸。高频分量：一幅图中，颜色变化剧烈的部分就叫做高频部分。通常高频是描述图像的边缘、细节或者是噪声，就像人脸的轮廓，还有脸上的痘。平滑空间滤波器：均值滤波器(Averaging ...

2018-11-23 21:11:25 3631

原创图像处理(Image Processing) ---------- 图像透明度 (C#实现)

讲到透明，可以先说几种常见的彩色图像深度标准：8位色，每个像素所能显示的彩色数为2的8次方，即256种颜色。 16位增强色，16位彩色，每个像素所能显示的彩色数为2的16次方，即65536种颜色。 24位真彩色，每个像素所能显示的彩色数为24位，即2的24次方，约1680万种颜色。 32位真彩色，即在24位真彩色图像的基础上再增加一个8位表示图像256级透明度的Alpha通道。当然也...

2018-11-23 19:10:38 6977

原创图像处理(Image Processing) ---------- 图像缩放 (C#实现)

图像的放大和缩小，必然伴随则图像中像素的增加或者减少。而我们现在要讨论的就是增加和减少的像素，都是哪些像素，如何得到。现在主流的放大方法：最临近点插值算法(Nearest Neighbor)：最简单、速度最快的一种算法。做法是将放大图像的坐标点换算回原始影像上，与原始图像哪个坐标点最近，就取其Pixel值作为新像素值。双线性插值算法(Bilinear Interpolation): 视...

2018-11-19 13:47:56 5252

Linux FTP模拟系统

图像处理(PCX图档)

空空如也