2021年01月_星海千寻

12月 09月 08月 02月 01月

原创《scikit-learn》《Kaggle》泰坦尼克数据集的试验

下载泰坦尼克数据集，下载地址是：https://www.kaggle.com/c/titanic这里如果是第一次使用kaggle的话，需要注册，注册时候有一些验证码的问题，可以参考https://www.cnblogs.com/liuxiaomin/p/11785645.html 来解决。第一步：我们来看看titanic数据集import pandas as pdfrom sklearn.tree import DecisionTreeClassifierimport matplotlib as

2021-01-31 21:07:59 402 1

原创《scikit-learn》数据标准化与SVM之SVC

这一章节我们能学到SVC作为分类器的简单使用。先来看看对数据进行标准化的方式标准化的目的与归一化一样，都是为了避免某个特征的重要程度过大或过小。标准化的优点：受异常点的影响较小。适用于繁杂大数据。from sklearn.preprocessing import StandardScaler# 标准化处理std = StandardScaler()# （fit_transform()等同于fit()填充数据 + tansform()转换数据）(tansform转换器转换数据时所依赖的均值

2021-01-30 18:01:02 1409

原创《scikit-learn》通过GridSearchCV来进行超参数优化

微调的一种方法是手工调制超参数，直到找到一个好的超参数组合，这么做的话会非常冗长，你也可能没有时间探索多种组合，所以可以使用Scikit-Learn的GridSearchCV来做这项搜索工作。GridSearchCV的名字其实可以拆分为两部分，GridSearch和CV，即网格搜索和交叉验证。这两个名字都非常好理解。网格搜索，搜索的是参数，即在指定的参数范围内，按步长依次调整参数，利用调整的参数训练学习器，从所有的参数中找到在验证集上精度最高的参数，这其实是一个训练和比较的过程。GridSearchCV

2021-01-30 17:48:01 536 1

原创《scikit-learn》使用交叉验证优化KNN参数

KNN有一个非常重要的参数就是n_neighbors，这个超参数很大程度上决定模型的准确性。那么我们利用有限的数据集，来调出最有说服力，最合适的这个参数呢，当然可以使用交叉验证的指标来衡量其好坏。尝试不同的n_neighbors参数，每一个都去做一次交叉验证，取结果最好的那个超参数模型即可。代码如下：from sklearn import datasets # 自带数据集from sklearn.model_selection import train_test_split, cross_val

2021-01-30 11:13:54 1149 1

原创《scikit-learn》交叉验证

当我们训练模型的时候，首先得要有数据进行训练。我们拥有一定的数据集的时候，我们不会用所有数据去训练，因为这样我们会不知道训练出的模型的繁华能力如何，而是习惯于划分为训练数据集和测试数据集，在训练集上训练处模型，拿到测试集去做测试。而这种方式也不一定是最好的，因为，这种方式选择数据集是随机的，也许我们调的参数只是该训练集下是最优的，或许只是在特定的训练集和测试集是最有的，换了个样本集，或者是划分出的训练集就不是。为了避免这种因样本选择带来的随机性影响，我们需要额外设置一个验证集，当模型训练完成以后，先在

2021-01-30 11:12:50 596

原创《scikit-learn》决策树之回归树

今天我们来看看怎么使用回归树，其实大致流程还是跟决策树一样的，只不过我们今天要使用的是tree.DecisionTreeRegressor这个类。1：加载数据由于是要做回归，因此我们需要连续的数据，比如拿波士顿房价距离。from sklearn.datasets import load_bostonfrom sklearn.model_selection import train_test_splitfrom sklearn import treeimport graphvizboston

2021-01-29 18:53:31 527 1

原创《scikit-learn》决策树之鸢尾花分类

有了上一博客的基础，我们来看看怎么操作鸢尾花的分裂问题。也是做一个简单的总结和回顾。直接整代码了。from sklearn import treefrom sklearn.datasets import load_irisfrom sklearn.model_selection import train_test_splitimport graphviz# 分类问题举例，加载自带的鸢尾花数据集，150个样本，4个属性，3个类别。iris = load_iris()print(iris.da

2021-01-28 18:46:51 731

原创《scikit-learn》决策树之分类树

前面我们学习了决策树的一些算法，提及到了scikit learn，这里我们已经基本具备了一些基本的知识，接下来我们进入实战环节，真实地去操作一把数据。希望在此学习的基础上基本掌握scikit learn的使用方法。作为具体操作scikit learn的第一篇，先得做好一些准备工作。conda install graphvizconda install scikit-learn此外还需要下载graphviz，并把其bin目录添加环境变量，重启开发环境即可。一：分类树先来看个例子from skle

2021-01-28 18:33:06 890

原创图像语义分割 -- UNET++

之前我们学习了U-Net的结构，以及模拟实现了一个模型。现在我们继续回顾一下，U-Net的最大特征就是，在encoder-decoder的基础上进行了skip-connection的操作（浅层和深层特征的融合），我们之前实现的是一个四层的网络，作者的论文也用的是四层的。难道必须是要四层么？于是有人就实验了不同的深度层次在不同的数据集上。请注意，每个圆圈圈都是表示一组卷积运算。实验证明，并不是越深越好，也不是 4 层最好；实验折射出这样的结论：不同层次(深浅)的特征的重要性在不同数据集上表现不

2021-01-24 22:15:04 969 1

原创 pytorch张量操作基础

张量是pytorch的基本数据类型，因此有必要重新快速的学习下怎么使用操作张量。1：使用tensor直接创建b = torch.tensor([[11, 22, 33, 66], [77, 44, 88, 99]])print(b)b = torch.tensor([11, 22, 33, 66, 77, 44, 88, 99])print(b)结果输出是：tensor([[11, 22, 33, 66],[77, 44, 88, 99]])tensor([11, 22, 33, 66,

2021-01-23 00:57:19 423 2

原创图像语义分割 -- U-Net

一：FCN回顾上一博文我们学习了FCN，有不同的特征融合版本。至于为什么要进行特征能融合呢？由于池化操作的存在，浅层卷积视野小，具体一些，细节更加详细，越深层的视野大，图像越小，越粗粒度，细节也是越来越模糊，所以，下采样的好处是，带来了感受域的提升，同时也减少计算量，但是却忽略了很多细节，让图像变得平湖模糊，因此，作者将浅层的细节特征也进行了特征融合。较浅的卷积层（靠前的）的感受域比较小，学习感知细节部分的能力强，较深的隐藏层 (靠后的)，感受域相对较大，适合学习较为整体的、相对更宏观一些的特征。所

2021-01-20 23:47:29 992

原创 pytorch中上采样的实现

因为最近在学习FCN，所以呢，有一些上采样的操作实际上，上采样（upsampling）一般包括2种方式：1：Resize，如双线性插值直接缩放，类似于图像缩放（这种方法在原文中提到）2：Deconvolution，也叫Transposed Convolution，也叫做反卷积。一：ResizeCLASS torch.nn.Upsample(size=None, scale_factor=None, mode='nearest', align_corners=None)CLASS torch.nn

2021-01-20 04:01:52 4596

原创图像语义分割 -- FCN

一：图像语义分割最简答理解图像语义分割呢就是看下面的图片例子：像素级别的分类：假如像素有五个类别，那么最后输出的结果在长度和宽度上是一样的，只不过通道数就是类别个数了。拆解开各个通道就是如下所示：合并后就是各个像素的类别信息了，一般情况下会不同的颜色来表示各个类别，这样我们就能更加清晰看出来哪些像素是什么类别了，这也是一个监督学习的例子。二：FCN由于自己太懒了，关于FCN的概念和介绍请自己自行百度哈。推荐下面链接https://zhuanlan.zhihu.com/p/31428783

2021-01-20 03:44:54 1362 1

原创搭建Vgg16训练CIFAR10数据集

今天我们来学习下经典网络VGG，并且模拟实现VGG16，且用来训练cifar10数据集。一：VGG简单学习先来看下图的总体介绍，有下面几种分类，A，A-LRN，B，C，D，E。其中最常用的是后两种，D和E的网络配置一般也叫做VGG16和VGG19。VGG16有13个卷积层加上3个全连接层，VGG19则有16个卷积层加上3个全连接层。VGG16和VGG19度包含了5个池化层。整体网络可以分成6个部分，前面5个是卷积层（Conv-XXX表示）（若干卷积ReLU和一个maxpooling组成），也就是用

2021-01-18 03:24:16 12103 16

原创 python实现Queue和Stack

Python的内置的数据类型有Map，Set，List，TupleMap：字典，键值对，值可以取任何数据类型，但键必须是不可变的，如字符串，数字或元组Set：集合，不能有重复的元素，元素之间是无序的。List：列表（序列），可以增删改查，列表的数据项不需要具有相同的类型，创建一个列表，只要把逗号分隔的不同的数据项使用方括号括起来即可，可以增删改查，元素之间是有序的。Tuple：元组与列表类似，不同之处在于元组的元素不能修改，但我们可以对元组进行连接组合。这些具体的用法都可以从https://www

2021-01-17 00:09:23 503 2

原创 ML《朴素贝叶斯》

一：贝叶斯定理二：朴素贝叶斯推断三：计算过程

2021-01-13 02:38:20 114

原创 ML《集成学习（五）XGBoost》

今天学习了一整天的 XGBoost，到最后还是懒得自己写了，还是奉上两篇博客吧，学这两篇博客学懂的。https://blog.csdn.net/a1b2c3d4123456/article/details/52849091https://www.jianshu.com/p/8cb5289da9de?open_source=weibo_search...

2021-01-09 04:05:23 193

原创 ML《集成学习（四）Boosting之回归树、提升树和GBDT》

GBDT(Gradient Boosting Decision Tree) 又叫 MART（Multiple Additive Regression Tree)，是一种迭代的决策树算法，该算法由多棵决策树组成，所有树的结论累加起来做最终答案。它在被提出之初就和SVM一起被认为是泛化能力较强的算法。 GBDT中的树是回归树（不是分类树），GBDT用来做回归预测，调整后也可以用于分类。 GBDT的思想使其具有天然优势可以发现多种有区分性的特征以及特征组合。一：回归树我们先来回顾下那个回归树，这个其实

2021-01-04 03:43:51 794

原创 ML《集成学习（三）Boosting和Adaboosting回归树》

上一篇博文我们学习了adaboosting算法用于分类树的算法，今天想把adaboosting算法用于回归树的算法也补充下：这里我们学习的是adaboosting R2算法：存在样本集D = {(x1,y1), (x2,y2), (x3,y3),…,(xN,yN)}迭代次数是T，也就是存在T个弱学习器，样本个数是N。整体还是和adaboosting做分类树的过程是一样的，都是给每个样本一个权重，一次迭代后，计算错误率和权重，以及更新权重，最后结合T个弱学习器的时候都是选择加权线性相加。..

2021-01-04 02:18:17 400 1

原创 ML《集成学习（二）Boosting之Adaboosting》

一：集成学习集成学习通过构建并结合多个学习器来完成学习任务，有时也被称为多分类器系统、基于委员会的学习等。集成学习通过将多个学习器进行结合，常可获得比单一学习器显著优越的泛化性能，也就是平常所说的“三个臭皮匠顶个诸葛亮”的道理。下面从两个方面对集成学习进行简要介绍。它有两个大种类：根据个体学习器的生成方式，目前的集成学习方法大致可以分为两大类，即个体学习器间存在强依赖关系、必须串行生成的序列化方法，代表算法是Boosting系列的算法；以及个体学习器间不存在强依赖关系、可同时生成的并行化方法，代表算法是

2021-01-03 02:55:31 516