2019年08月_小麦粒

原创使用 Python 生成二维码

在二维条码中，常用的码制有：Data Matrix, Maxi Code, Aztec, QR Code, Vericode, PDF417, Ultracode, Code 49, Code 16K等。QR code 是一种矩阵式二维条码（又称棋盘式二维条码）。它是在一个矩形空间通过黑、白像素在矩阵中的不同分布进行编码。在矩阵相应元素位置上，用点（方点、圆点或其他形状）的出现表示二进制“1”，点的不出现表示二进制的“0”，点的排列组合确定了矩阵式二维条码所代表的意义。

2019-08-23 18:04:08 1927

原创 Python动态可视化Cufflinks

就像seaborn封装了matplotlib一样，cufflinks在plotly的基础上做了一进一步的包装，方法统一，参数配置简单。其次它还可以结合pandas的dataframe随意灵活地画图。可以把它形容为"pandas like visualization"。

2019-08-09 09:16:22 11268 7

原创数据集和预训练模型

ImageNet曾是一个计算机视觉研究项目：（人工）打标签并分类成22000个不同物品种类。然而，当我们在讨论深度学习和CNN的时候，“ImageNet”意味着ImageNetLarge Scale Visual Recognition Challenge，图像网络大规模的视觉识别挑战,简写为ILSVRC。 ILSVRC的目的是训练一个能够正确识别图像并分类（1000种）的模型：模型使用约120万张图像用作训练，5万张图像用作验证，10万张图像用作测试。

2019-08-05 22:56:57 6503 1

原创特征工程 Feature Engineering（一）

特征工程其本质上是一项工程活动，它的目的是最大限度地从原始数据中提取特征以供算法和模型使用。数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限。特征工程的最终目的就是提升模型的性能。特征工程的重要性：特征越好，灵活性越强特征越好，模型越简单特征越好，性能越出色

2019-08-30 22:41:29 7968 2

原创决策树Decision Tree 和随机森林RandomForest基本概念（一）

在决策树算法中,ID3基于信息增益作为属性选择的度量, C4.5基于信息增益作为属性选择的度量, C5.0 是决策树C4.5的商用算法，在内存管理等方面，给出了改进。比如在商用软件SPSS中，就有该算法，CART基于基尼指数作为属性选择的度量。

2019-08-30 15:17:43 9306 1

原创 python 脚本和模块应用

Python一个文件算一个模块，一个带init.py的目录算一个包。以.py 结尾的文件就是 python 脚本。

2019-08-28 14:49:38 1760

原创 Linux文件系统架构

Linux 系统大家一定不陌生，学习工作中肯定会和 Linux 打交道。不过谈及 Linux，给人的第一印象可能就是黑乎乎的命令行，乱七八糟的文件夹，甚至安装软件都不知道是怎么安装上去的。其实这些都是用惯了 Windows 的后遗症，多用用 Linux 就会发现这玩意还是挺好用的，关键还能 DIY，非常装逼。

2019-08-27 15:45:33 1659

原创监督和无监督、分类和回归算法总结

监督学习可以分为两类：分类和回归。

2019-08-26 19:55:06 11848

原创 python之print和return的区别

文章目录一、Python print() 函数1.1 print 介绍1.2 print() 语法二、Python return 函数2.1 return 介绍与用法2.2 return意义一、Python print() 函数1.1 print 介绍如果你的函数只需打印语句，不需要传递值的时候可以使用print代替return但绝大多数应用中仍需使用return打印值。 prin...

2019-08-17 21:34:15 4618

原创模型评估（三）top

top1就是你预测的label取最后概率向量里面最大的那一个作为预测结果，你的预测结果中概率最大的那个类必须是正确类别才算预测正确。而top5就是最后概率向量最大的前五名中出现了正确概率即为预测正确。

2019-08-16 14:23:57 2403

原创 ResNet（二）架构解析

“随着网络加深，准确率下降”的问题，Resnet提供了两种选择方式，也就是identity mapping和residual mapping，如果网络已经到达最优，继续加深网络，residual mapping将被push为0，只剩下identity mapping，这样理论上网络一直处于最优状态了，网络的性能也就不会随着深度增加而降低了。

2019-08-16 08:41:55 1572

原创 ResNet（一）相关概念

文章目录一、ResNet 介绍1.1 ResNet 由来1.2 深度残差网络（Deep Residual Network，简称DRN）1.3 34层的深度残差网络的结构图1.4 深度残差网络的结构图实线和虚线1.5 不同层的残差学习单元二、ResNet 结构2.1 ResNet基本架构图2.2 基本参数解释2.3 residual 分支和 identity 分支2.4 Post-activatio...

2019-08-14 16:44:17 4702

原创 Inception V1架构详情和卷积池化概念

Inception 架构详情：inception V1 具有22层。包括池化层的话是 27 层，该模型在最后一个 inception 模块处使用全局平均池化，线性输出。

2019-08-14 09:21:34 2949 2

原创 GoogleNet、AleXNet、VGGNet、ResNet等总结

ILSVRC(ImageNet大规模视觉识别挑战赛)每年都不断被深度学习刷榜，随着模型变得越来越深，Top-5的错误率也越来越低，目前降低到了3.5%附近，而人类在ImageNet数据集合上的辨识错误率大概在5.1%，也就是目前的深度学习模型识别能力已经超过了人类。

2019-08-11 15:21:46 12614

原创 GoogLeNet （二） Inception 相关概念

文章目录一、原始Inception的基本结构1.1 Filter concatenation1.2 降低特征图厚度演进出V1、V2、V3、V41.3 1x1的卷积核有什么用呢？1.4 搭建Inception网络问题1.5 InceptionV1参数少但是效果好的原因二、Inception 知识点2.1 MLP 多层神经网络2.2 Network In Network 瓶颈层降低网络的计算成本2.3...

2019-08-11 14:48:38 3701

原创 GoogLeNet （一）GoogLeNet的Inception v1到v4的演进

2014年，GoogLeNet和VGG是当年ImageNet挑战赛(ILSVRC14)的双雄，GoogLeNet获得了第一名、VGG获得了第二名，这两类模型结构的共同特点是层次更深了。VGG继承了LeNet以及AlexNet的一些框架结构，而GoogLeNet则做了更加大胆的网络结构尝试，虽然深度只有22层，但大小却比AlexNet和VGG小很多，GoogleNet参数为500万个，AlexNet参数个数是GoogleNet的12倍，VGGNet参数又是AlexNet的3倍，因此在内存或计算资源有限时，Go

2019-08-10 15:35:15 2224 1

原创 keras—VGG19（一）

总共有很多参数,我们只关心我们需要关注的,W和B在哪里就行了，注意这里还有一个mean(平均值),因为VGG使用了图像预处理方式是 input - mean,当然这种处理方式在现在看来不怎么好,但是现在我们用人家的模型,需要遵照人家的意思.从下面的图看到存储的43个参数注意里面的Relu是没有数据的,因为Relu就是一个函数注意Pool的参数是固定的,因为大小为:[1,2,2,1],步长[1,2,2,1],这里可以自己写,也可以读取参数

2019-08-09 08:58:55 8018

原创 ResNet解析（一）架构、概念

ResNet = Residual Network残差网络，2015年由著名的Researcher Kaiming He(何凯明)提出的深度卷积网络，一经出世，便在ImageNet中斩获图像分类、检测、定位三项的冠军。残差网络更容易优化，并且能够通过增加相当的深度来提高准确率。核心是解决了增加深度带来的副作用（退化问题），这样能够通过单纯地增加网络深度，来提高网络性能。因为它“简单与实用”并存，之后很多方法都建立在ResNet50或者ResNet101的基础上完成的，检测，分割，识别等领域都纷纷使用Re

2019-08-08 21:37:34 5871

原创 keras—VGG16

VGG16共包含：13个卷积层（Convolutional Layer），分别用conv3-XXX表示3个全连接层（Fully connected Layer）,分别用FC-XXXX表示5个池化层（Pool layer）,分别用maxpool表示其中，卷积层和全连接层具有权重系数，因此也被称为权重层，总数目为13+3=16，这即是VGG16中16的来源。(池化层不涉及权重，因此不属于权重层，不被计数)。

2019-08-07 22:49:55 8183 1

原创模型评价ROC\AUC\查准率\查全率\F-score\混淆矩阵\KS曲线\PR曲线等

AUC（Area Under Curve）是由ROC（Receiver Operating Characteristic Curve，受试者工作特征曲线）及其曲线下的面积组成，而ROC是由真阳性率和假阳性率绘制而成的曲线，是反映敏感性和特异性连续变量的综合指标，ROC曲线上每个点反映着对同一信号刺激的感受性。混淆矩阵是ROC曲线绘制的基础，返回值是一个误差矩阵，常用来可视化地评估监督学习算法的性能。指标还有查准率、查全率和F-score等

2019-08-04 22:08:32 2630

原创 Cross-validation\cross_val_score\鲁棒性

有时我们挑出的模型在测试集上的效果ok，但是在新的数据集上就没那么ok了，行话叫做鲁棒性（robust）不强。目前普遍的做法，是使用cross_validation来评估模型以及挑选模型。它的基本思想就是将原始数据（dataset）进行分组，一部分做为训练集来训练模型，另一部分做为测试集来评价模型。

2019-08-01 23:10:33 2855 1

原创 random_state 与 random seed

random_state（）是随机数的种子。在同一份数据集上，相同的种子产生相同的结果，不同的种子产生不同的划分结果

2019-08-01 21:09:35 3783

原创数据集划分train_test_split\交叉验证Cross-validation

交叉验证是在机器学习建立模型和验证模型参数时常用的办法。交叉验证，顾名思义，就是重复的使用数据，把得到的样本数据进行切分，组合为不同的训练集和测试集，用训练集来训练模型，用测试集来评估模型预测的好坏。在此基础上可以得到多组不同的训练集和测试集，某次训练集中的某样本在下次可能成为测试集中的样本，即所谓“交叉”。

2019-08-01 16:04:26 18793 2

原创网格搜索 GridSearchCV\训练集、验证集和测试集

GridSearchCV，它存在的意义就是**自动调参**，只要把参数输进去，就能给出最优化的结果和参数。但是这个方法**适合于小数据集**，一旦数据的量级上去了，很难得出结果。这个时候就是需要动脑筋了。**数据量比较大**的时候可以使用一个**快速调优的方法——坐标下降**。它其实是一种贪心算法：拿当前对模型影响最大的参数调优，直到最优化；再拿下一个影响最大的参数调优，如此下去，直到所有的参数调整完毕。这个方法的缺点就是可能会调到局部最优而不是全局最优，但是省时间省力，巨大的优势面前，还是试一试吧，后续可

2019-08-01 15:53:28 8798 4

原创 SLAM算法（一）即同步定位与地图构建了解

SLAM(Simultaneous Localization and Mapping同步定位与地图构建) 是业界公认视觉领域空间定位技术的前沿方向，它主要用于解决机器人在未知环境运动时的定位和地图构建问题。目前科技发展速度飞快，想让用户在 AR/VR、机器人、无人机、无人驾驶领域体验加强，还是需要更多前沿技术做支持，SLAM 就是其中之一。实际上，有人就曾打比方，若是手机离开了 WIFI 和数据网络，就像无人车和机器人，离开了 SLAM 一样。

2019-08-01 10:15:17 9796 1

小麦粒的Python