2020年04月_星尘 StarDust

原创精通Pandas索引操作，看这篇就够了！

思维导图import numpy as npimport pandas as pddf = pd.read_csv('data/table.csv',index_col="ID")df.head()一、单级索引1. loc方法、iloc方法、[]操作符最常用的索引方法可能就是这三类，其中iloc表示位置索引，loc表示标签索引，[]也具有很大的便利性，各有特点（a）loc方法（注...

2020-04-23 11:24:35 3375 4

1、逻辑回归 (Logistic Regression，LR)概述在scikit-learn中，与逻辑回归有关的主要有3个类。LogisticRegression， LogisticRegressionCV 和Logistic_regression_path。其中LogisticRegression和LogisticRegressionCV的主要区别是LogisticRegressionCV使用...

2020-04-01 01:36:13 19182 2

原创精通Pandas合并操作(append、assign、combine、update、concat、merge、join)！

>>> import numpy as np>>> import pandas as pd>>> df = pd.read_csv('data/table.csv')>>> df.head()一、append与assign1. append方法（a）利用序列添加行（必须指定name）>>> d...

2020-04-30 23:32:15 890

原创一文理解pytorch张量概念和tensor的三种创建方式！

1、张量是什么？张量是一个多维数组，它是标量、向量、矩阵的高维拓展。1.1 VariableVariable是 torch.autograd中的数据类型，主要用于封装 Tensor，进行自动求导。data : 被包装的Tensorgrad : data的梯度grad_fn : 创建 Tensor的 Function，是自动求导的关键requires_grad：指示是否需要梯度...

2020-04-30 11:48:41 720

原创计算机视觉基础（五）——图像分割/二值化

图像阈值化分割是一种传统的最常用的图像分割方法，因其实现简单、计算量小、性能较稳定而成为图像分割中最基本和应用最广泛的分割技术。它特别适用于目标和背景占据不同灰度级范围的图像。它不仅可以极大的压缩数据量，而且也大大简化了分析和处理步骤，因此在很多情况下，是进行图像分析、特征提取与模式识别之前的必要的图像预处理过程。图像阈值化的目的是要按照灰度级，对像素集合进行一个划分，得到的每个子集形成一个与现实...

2020-04-29 23:07:14 2271 1

原创飞桨AI课程干货--带你开启新世界的大门！

笔者近期体验了“百度深度学习7日打卡第六期：Python小白逆袭大神”训练营，课程每天都有对应的直播，由中科院团队负责教学，每天有对应的作业贯穿其中，带你全程体验百度AI开放平台——AI Studio，飞桨PaddlePaddle，EasyDL。看到课程还有这么多丰厚的礼品，打卡更有动力了！介绍完课程，下面来点学习过程中的干货分享：Day1-人工智能概述与入门基础人工智能：Artif...

2020-04-29 16:01:14 2598

原创精通Pandas变形操作：pivot_table()、get_dummies()、stack()函数

>>> import numpy as np>>> import pandas as pd>>> df = pd.read_csv('data/table.csv')>>> df.head()一、透视表1. pivot一般状态下，数据在DataFrame会以压缩（stacked）状态存放，例如上面的Gender，...

2020-04-28 17:18:02 1134 2

原创计算机视觉基础（四）——图像滤波

图像的实质是一种二维信号，滤波是信号处理中的一个重要概念。在图像处理中，滤波是一种非常常见的技术，它们的原理非常简单，但是其思想却十分值得借鉴，滤波是很多图像算法的前置步骤或基础，掌握图像滤波对理解卷积神经网络也有一定帮助。均值滤波、方框滤波1. 滤波分类线性滤波：对邻域中的像素的计算为线性运算时，如利用窗口函数进行平滑加权求和的运算，或者某种卷积运算，都可以称为线性滤波。常见的线性滤波有...

2020-04-27 23:44:24 1213

原创 Pandas分组、聚合、过滤操作全面解析！

思维导图>>> import numpy as np>>> import pandas as pd>>> df = pd.read_csv('data/table.csv',index_col='ID')>>> df.head()一、SAC过程1. 内涵SAC指的是分组操作中的split-apply-combi...

2020-04-26 22:39:57 4503

原创计算机视觉基础（三）——彩色空间互转

图像彩色空间互转在图像处理中应用非常广泛，而且很多算法只对灰度图有效；另外，相比RGB，其他颜色空间(比如HSV、HSI)更具可分离性和可操作性，所以很多图像算法需要将图像从RGB转为其他颜色空间，所以图像彩色互转是十分重要和关键的。1 算法理论介绍1.1 RGB与灰度图互转RGB（红绿蓝）是依据人眼识别的颜色定义出的空间，可表示大部分颜色。但在科学研究一般不采用RGB颜色空间，因为它的细节...

2020-04-25 22:42:34 777 2

原创计算机视觉基础（二）——图像几何变换

简介几何变换的原理大多都是相似，只是变换矩阵不同，因此，我们以最常用的平移和旋转为例进行学习。在深度学习领域，我们常用平移、旋转、镜像等操作进行数据增广；在传统CV领域，由于某些拍摄角度的问题，我们需要对图像进行矫正处理，而几何变换正是这个处理过程的基础，因此了解和学习几何变换也是有必要的。这次我们带着几个问题进行，以旋转为例：1：变换的形式（公式）是什么？2：旋转中心是什么？毕竟以不同...

2020-04-23 23:46:43 1553

原创使用Sklearn的SVM接口实现鸢尾花分类

Iris Data SetIris Data Set（鸢尾属植物数据集）是历史比较悠久的数据集，它首次出现在著名的英国统计学家和生物学家Ronald Fisher 1936年的论文《The use of multiple measurements in taxonomic problems》中，被用来介绍线性判别式分析。在这个数据集中，包括了三类不同的鸢尾属植物：Iris Setosa，Iris...

2020-04-21 22:23:38 2557

原创计算机视觉基础（一）——图像插值算法

1.1 简介在图像处理中，平移变换、旋转变换以及放缩变换是一些基础且常用的操作。这些几何变换并不改变图象的象素值，只是在图象平面上进行象素的重新排列。在一幅输入图象[u，v][u，v][u，v]中，灰度值仅在整数位置上有定义。然而，输出图象[x，y]的灰度值一般由处在非整数坐标上的（u，v）（u，v）（u，v）值来决定。这就需要插值算法来进行处理，常见的插值算法有最近邻插值、双线性插值和三次...

2020-04-21 16:01:59 2389

原创 Pandas基础知识入门

Pandas是基于Numpy构建的含有更高级数据结构和工具的数据分析包。类似于Numpy的核心是ndarray，pandas 也是围绕着 Series 和 DataFrame两个核心数据结构展开的。Series 和 DataFrame 分别对应于一维的序列和二维的表结构。Pandas官方教程User Guide ，查看当前版本：>>> import pandas as pd...

2020-04-20 22:10:00 618

原创 numpy.pad()函数使用详解

在卷积神经网络中，为了避免因为卷积运算导致输出图像缩小和图像边缘信息丢失，常常采用图像边缘填充技术，即在图像四周边缘填充0，使得卷积运算后图像大小不会缩小，同时也不会丢失边缘和角落的信息。在Python的numpy库中，常常采用numpy.pad()进行填充操作。官方文档为：numpy.padnumpy.pad(array, pad_width, mode=‘constant’, **kwar...

2020-04-19 23:40:03 13777 4

原创 numpy.diag()函数使用详解

基于NumPy v1.17 使用手册，numpy.diag()函数是以一维数组的形式返回方阵的对角线（或非对角线）元素，或将一维数组转换成方阵（非对角线元素为0）。两种功能角色转变取决于输入的v。官方文档如下:numpy.diag参数解析v : array_like如果v是二维数组，返回k位置的对角线。如果v是一维数组，返回一个v作为k位置对角线的二维数组。k : int, op...

2020-04-19 16:55:16 24447

原创 Linux vim编辑器使用指南

vim编辑器介绍Vim是从 vi 发展出来的一个文本编辑器。代码补完、编译及错误跳转等方便编程的功能特别丰富，在程序员中被广泛使用。Vim 具有程序编辑的能力，可以主动以字体颜色辨别语法的正确性，方便程序设计。基本上 vim 共分为三种模式，分别是命令模式（Command mode），输入模式（Insert mode）和底线命令模式（Last line mode）。vim的三种工作模式...

2020-04-18 15:27:54 478

原创 Sklearn的决策树算法实现鸢尾花分类

Iris Data SetIris Data Set（鸢尾属植物数据集）是历史比较悠久的数据集，它首次出现在著名的英国统计学家和生物学家Ronald Fisher 1936年的论文《The use of multiple measurements in taxonomic problems》中，被用来介绍线性判别式分析。在这个数据集中，包括了三类不同的鸢尾属植物：Iris Setosa，Iris...

2020-04-11 23:23:02 3458

原创 Numpy快速入门--随机数random模块指南

random模块用于生成随机数，下面介绍常用的随机数函数：1、np.random.seed(argument)如果使用相同的argument值，则每次生成的随即数都相同。如果不设置这个值，则系统根据时间来自己选择这个值，此时每次生成的随机数因时间差异而不同。2、np.random.random(size=None)作用：生成[0,1)区间指定size的随机浮点数>>>...

2020-04-11 22:40:03 357

原创决策树中的ID3、C4.5和CART算法的对比分析

ID3算法（Iterative Dichotmizer 3）1、特征选择准则：信息增益2、特征必须离散化，不能处理连续值3、偏向于选择取值多的属性4、是一个多叉树模型信息熵：度量样本集合纯度最常用的一种指标，定义如下Ent⁡(D)=−∑k=1∣Y∣pklog⁡2pk\operatorname{Ent}(D)=-\sum_{k=1}^{|\mathcal{Y}|} p_{k}...

2020-04-07 22:52:23 1058 2

原创编程手记--逻辑回归实现MNIST数据集分类

1 MNIST手写数据集经典的MNIST数据集包含了大量的手写数字。十几年来，来自机器学习、机器视觉、人工智能、深度学习领域的研究员们把这个数据集作为衡量算法的基准之一。你会在很多的会议，期刊的论文中发现这个数据集的身影。实际上，MNIST数据集已经成为算法作者的必测的数据集之一。有人曾调侃道：“如果一个算法在MNIST上不work, 那么它就根本没法用；而如果它在MNIST上work, 它在其...

2020-04-01 18:11:05 2018

OuDiShenmiss的博客