2h4n9y1m1n9-CSDN博客

1、创建一个空的DataFramea = pd.DataFrame()2、txt、csv、excel、数据库数据读取1、读取txt文件【方法一】df = pd.read_table("F:/datafrog/2-PYTHON/CDNOW_master.txt",names = ['user_id','order_dt','order_products','order_amount'],sep = '\s+')【方法二】columns = ['user_id','order_dt'

2020-07-17 19:05:58 528

原创数据挖掘知识点

1、sparkstreaming和strom的区别：他们的区别是SparkStreaming的吞吐量非常高，秒级准实时处理，Storm是容错性非常高，毫秒级实时处理解释：sparkStreaming是一次处理某个间隔的数据，比如5秒内的数据，批量处理，所以吞吐量高。Storm是来一条处理一条，所以速度快，不存在丢失数据应用场景：对于数据非常重要不能丢失数据的，不能有延迟的，比如股票，金融之类场景的使用Storm对于没那么高精度，但是要处理大量的数据，可以用sparkSremaing

2020-07-16 19:39:46 292

原创 MapReduce计算框架·执行流程

1、数据从input split中进来。input split有多大，与hdfs文件切块有什么关系？首先，hadoop2.0的hdfs文件切块是128M，这是定死的，称为物理切块。inputsplit默认也是128M和hdfs文件切块保大小持一致，称为逻辑切块。既然是逻辑切块，说明他的大小是可变的，如果设置小于或者大于hdfs的物理切块都会带来横跨两个物理切块的可能，会带来数据网络传输的延时。例：（1）假如设置逻辑块inputsplit大小为64M，那么刚...

2020-07-16 14:35:27 316

原创 FCN

FCN核心思想不含全连接层的全卷积网络，可适应任意尺寸输入。增大数据尺寸的反卷积(deconv)层。能够输出精细的结果。重点知识点损失函数是在最后一层的spatial map上的pixel的loss和，在每一个pixel使用softmax loss。使用skip结构融合多层（3层）输出，底层网络应该可以预测更多的位置信息，因为它的感受野小可以看到小的pixels。上采样lower-resolution layers时，如果采样后的图因为padding等原因和前面的图大小不同，使用cro

2020-06-09 16:48:54 275

原创我所理解的mobile Net

Mobile Net采用了深度可分离卷积。深度可分离卷积分为逐深度卷积和逐点卷积。逐深度卷积的通道数为1，卷积核数量为输入特征图的通道数。每个卷积核分别与输入特征图的每个通道进行卷积（其实这里就相当于进行了滤波，没有结合各个通道的特征图生成新的特征），所以生成这些新的特征，有1*1卷积构成的逐点卷积被运用在了mobileNet中。一个标准的传统卷积过程将输入滤波和组合成一组新的输出。深度可分离卷积将其分成两层，一层用于滤波，一层用于组合。这种分解过程能极大减少计算量和模型大小。深度可分离卷积

2020-05-21 14:44:11 226

原创 bagging、boosting总结

根据个体学习器的生成方式，目前集成学习方法大致分为两大类：1、个体学习器之间存在强依赖关系、必须串行生成的序列化方法；2、个体学习器间不存在强依赖关系、可同时生成的并行化方法。前者的代表就是Boosting，后者的代表是Bagging和“随机森林”。随机森林是bagging的一个特化进阶版，所谓的特化是因为随机森林的弱学习器都是决策树。所谓的进阶是随机森林在bagging的样本随机采样基础上，又加上了特征的随机选择，其基本思想没有脱离bagging的范畴。tip：一般的bagging算法是从总样本中随机

2020-05-11 14:58:50 229

原创为什么faster-rcnn的识别精度要高于yolov3？

yolov3（one-state）和faster-rcnn（two-stage）的表现差异主要原因是: 1、大量前景（positive）和背景（negative）数量不平衡导致。 2、yolov3这种one-stage既要做定位又要做分类，在最后的损失函数中混在一起进行计算，这样没有专门做分类或者专门做bbox regression的参数，那每个参数的学习难度就大一点。1、在faster-rcnn中，rpn层会通过2分类来判断哪些anc...

2020-05-11 14:57:01 2985

原创 faster-rcnn

Faster RCNN 1、Faster-rcnn主要分为以下4个部分： 1、Conv layers。Faster RCNN首先使用一组基础的conv+relu+pooling层提取image的feature maps。该feature map...

2020-04-23 15:43:39 429

原创 YOLOv1、YOLOv2、YOLOv3概括总结

Yolov1参考资料链接：https://www.jianshu.com/p/cad68ca85e27 将一幅图像分成S*S个网格（grid cell），如果某个object的中心落在这个网格中，则这个网格就负责预测这个object。个人理解：将图像分成S*S的网格，其实就是...

2020-04-21 15:14:03 810

原创机器学习项目清单

该清单可以帮助你完成你的机器学习项目。主要有8个步骤：1、架构问题，关注蓝图。2、获取数据。3、研究数据以获取灵感。4、准备数据以更好地将低层模型暴露给机器学习算法。5、研究各种不同的模型，并列出最好的模型。6、微调模型，并将其组合为更好的解决方案。7、提出解决方案。8、启动、监视、维护系统。架构问题，关注蓝图1、用商业术语定义目标。2、方案如何使...

2019-12-17 18:57:17 140

原创 tensorflow之tf.placeholder 与 tf.Variable区别对比

Variable:主要是用于训练变量之类的。比如我们经常使用的网络权重，偏置。值得注意的是Variable在声明时必须赋予初始值。在训练过程中该值很可能会进行不断的加减操作变化。placeholder：也是用于存储数据，但是主要用于feed_dict的配合，接收输入数据用于训练模型等。placeholder值在训练过程中会不断地被赋予新的值，用于批处理，基本上其值是不会轻易进行加减操作。t...

2019-09-18 20:14:09 187

原创 [机器学习]------特征选择常用方法整理

https://blog.csdn.net/SecondLieutenant/article/details/80693765

2019-09-18 15:15:58 135

原创方差的偏差的区别

想象你开着一架黑鹰直升机，得到命令攻击地面上一只敌军部队，于是你连打数十梭子，结果有一下几种情况:子弹基本上都打在队伍经过的一棵树上了，连在那棵树旁边等兔子的人都毫发无损，这就是方差小（子弹打得很集中），偏差大（跟目的相距甚远）。子弹打在了树上，石头上，树旁边等兔子的人身上，花花草草也都中弹，但是敌军安然无恙，这就是方差大（子弹到处都是），偏差大（同1）。子弹打死了一部分敌军，但是也打...

2019-09-18 11:11:19 114

原创 sklearn-特征提升之特征提取-----DictVectorizer

DictVectorizer的处理对象时符号化（非数字化）的但是具有一定结构的特征数据，如字典等，将符号转成数字0/1表示。test_dict = [{'name':'zhang','old':23},{'name':'wang','old':15},{'name':'liu','old':33}]from sklearn.feature_extraction import DictVe...

2019-07-24 14:26:52 683 1

原创机器学习解决应用问题的一般步骤（笔记）

第一步：识别问题首先明确这个问题是分类还是回归，通过问题和数据就可以判断出来，数据由X和label列构成，label可以一列也可以多列，可以是二进制也可以是实数。当它为二进制时，问题属于分类，当它为实数时，问题属于回归。第二步：分离数据把数据分离成Training Data和Validation Data来检验这个模型的表现，不然的话，通过各种调节参数，模型...

2019-04-08 13:20:54 1429

原创机器学习中的多类别分类和多标签分类

多类别分类（Multiclass Classification）一个样本属于且只属于多个类中的一个，一个样本只能属于一个类，不同类之间是互斥的。多标签分类（Multilable classification）多标签分类又称多标签学习、多标记学习，不同于多类别分类，一个样本可以属于多个类别（或标签），不同类之间是有关联的。sklearn.multiclass 提供了很多机器学习...

2019-04-04 13:30:20 6232

转载神经网络与遗传算法

神经网络是用来处理非线性关系的，输入和输出之间的关系可以确定（存在非线性关系），可以利用神经网络的自我学习（需要训练数据集用明确的输入和输出），训练后权值确定，就可以测试新的输入了。遗传算法是用来解决最值问题的，生物进化、优胜略汰。更灵活没有限制，唯一的难处就是编码染色体和评价函数的选择。两者的结合可以从两个方面确定：第一种：辅助结合方式：用GA对数据进行预处理，然后用...

2018-12-27 13:45:10 5392

原创 adaboost和GBDT

adaboost提高那些被前一轮分类器错误分类样本的权值，而降低那些被正确分类样本的权值。这样一来，那些没有得到正确分类的数据，由于其权值的加大而受到后一轮的弱分类器的更大关注。第二，adaboost采取加权多数表决的方法，加大分类误差率小的弱分类器的权值，使其在表决中起较大的作用，减小分类误差率大的弱分类器的权值，使其在表决中起较小的作用。 GBDT中的DT是回归决策树，...

2018-10-08 11:02:28 418

原创 python知识点总结

1、当我们定义一个class的时候，我们实际上就定义了一种数据类型。我们定义的数据类型和python自带的数据类型，比如str、list、dict没什么两样。

2018-09-26 16:54:23 251

转载逻辑回归 vs 决策树 vs 支持向量机

逻辑回归逻辑回归非常便利并且很有用的一点就是，它输出的结果并不是一个离散值或者确切的类别。相反，你得到的是一个与每个观测样本相关的概率列表。你可以使用不同的标准和常用的性能指标来分析这个概率分数，并得到一个阈值，然后使用最符合你业务问题的方式进行分类输出。逻辑回归的优点：便利的观测样本概率分数；已有工具的高效实现；对逻辑回归而言，多重共线性并不是问题，它可以结合L2正则化来解...

2018-09-02 14:44:30 504

转载常见的几种最优化方法（梯度下降法、牛顿法、共轭梯度法）

对批量梯度下降法和随机梯度下降法的总结：批量梯度下降---最小化所有训练样本的损失函数，使得最终求解的是全局的最优解，即求解的参数是使得风险函数最小，但是对于大规模样本问题效率低下。随机梯度下降---最小化每条样本的损失函数，虽然不是每次迭代得到的损失函数都向着全局最优方向，但是大的整体的方向是向全局最优解的，最终的结果往往是在全局最优解附近，适用于大规模训练样本情况。关...

2018-09-02 12:46:12 6041

转载 Bagging和Boosting概念及区别

原文出处：http://www.cnblogs.com/liuwu265/p/4690486.htmlBagging和Boosting都是将已有的分类或回归算法通过一定方式组合起来，形成一个性能更加强大的分类器，更准确的说这是一种分类算法的组装方式。即将弱分类器组装成强分类器的方法。1、BaggingBagging即套袋法，其算法过程如下：A）从原始样本集中抽取训练集。每轮从原始...

2018-08-29 11:50:12 228

转载机器学习中的回归（Regression）与分类（classification）问题

原文地址：https://blog.csdn.net/wspba/article/details/61927105分类模型和回归模型本质一样，分类模型是将回归模型的输出离散化。1、Logistic Regression 和 Linear Regression：Linear Regression：输出一个标量wx+b,这个值是连续值，所以可以用来处理回归问题。 Logistic Re...

2018-08-28 15:39:18 873

转载 Python列表、Numpy数组与矩阵的区别

转载出处：https://blog.csdn.net/wyl1813240346/article/details/79806207Python列表和Numpy数组的区别： Numpy使用ndarray对象来处理多维数组，该对象是一个快速而灵活的大数据容器。使用Python列表可以存储一维数组，通过列表的嵌套可以实现多维数组，那么为什么还需要使用Numpy呢？Numpy是专门针对数组的操作和运...

2018-08-27 16:32:32 587

原创深度学习中的卷积与反卷积

编码器与解码器神经网络本质上就是一个线性变换，通过将输入的多维向量与权重矩阵相乘，得到一个新的多维向量。当输入向量的维度高于输出向量的维度是，神经网络就相当于一个编码器，实现了对高维向量的低维特征提取.. 当输入向量维度低于输出向量维度时，神经网络就相当于一个解码器，实现了地位向量到高维向量的重构。然而，普通的神经网络仅能对向量进行操作，常见的图像、音频等高维数据都需要展开成向量才能输...

2018-08-25 18:04:07 303

原创稀疏编码笔记

1、稀疏编码概述稀疏编码的概念来自于神经生物学。生物学家提出，哺乳动物在长期的进化中，生成了能够快速，准确，低代价地表示自然图像的视觉神经方面的能力，我们直观地可以想象，我们的眼睛每看到的一副画面都是上亿像素的，而每一幅图像我们都只用很少的代价重建与存储。我们把它叫做稀疏编码。2、L0范数与L1范数L0范数是指向量中非0的元素的个数。如果我们用L0范数来规则化一个参数矩阵W的话，就是希...

2018-08-25 17:02:34 538

原创局部最小值和全局最小值

基于梯度得搜索是使用最为广泛得参数寻优方法。在此类方法中，我们从某些初始解出发，迭代寻找最优参数值。每次迭代中，我们先计算误差函数在当前点的梯度，然后根据梯度确定搜索方向。例如，由于负梯度方向是函数值下降最快的方法，因此梯度下降法就是沿着负梯度方向搜索最优解。若误差函数在当前点的梯度为零，则已达到局部极小，更新量将为零，这意味着参数的迭代更新将在此停止。显然，如果误差函数仅有一个局部极小，...

2018-06-29 15:19:10 11621 2

原创对神经网络的理解

神经网络输入的神经元其实可以看成输入数据的特征，对它进行相乘的权值就可以看成这个输入数据的特征对最后结果所造成影响的比重。

2018-06-29 11:18:16 295

原创卷积神经网络的理解

卷积神经网络较全连接网络主要特点是局部相关和权值共享。局部相关的理论是对于一幅图像的一个像素点P来说，离这个像素点P越近的像素点对其影响也就越大。权值共享：根据自然图像的统计特性，某个区域的权值也可以作用于另一个区域。这里的全职共享说白了就是卷积核共享，对于卷积核将其与给定的图像做卷积，就可以提取一种图像的特征，不同的卷积核可以提取不同图像的特征。卷积网络在图像信息提取方面较全连接网络的...

2018-06-29 10:57:58 192

转载详解机器学习中的梯度消失、爆炸原因及其解决方法

转载：https://blog.csdn.net/qq_25737169/article/details/78847691前言本文主要深入介绍深度学习中的梯度消失和梯度爆炸的问题以及解决方案。本文分为三部分，第一部分主要直观的介绍深度学习中为什么使用梯度更新，第二部分主要介绍深度学习中梯度消失及爆炸的原因，第三部分对提出梯度消失及爆炸的解决方案。有基础的同鞋可以跳着阅读。其中，梯度消失爆炸的解决...

2018-06-27 15:00:55 294

转载 python 实现线性链表（单链表）

转载：https://blog.csdn.net/King0217/article/details/78228433# -*- coding:utf-8 -*-# 结点类，class Node: def __init__(self, data): self.data = data # 数据域 self.next = Non...

2018-06-27 13:32:26 176

转载 python还能这样写

Python 还能这样写？我一看就掉下巴了……整个集合大概是按照难易程度排序，简单常见的在前面，比较少见的在最后。拆箱>>> a, b, c = 1, 2, 3>>> a, b, c(1, 2, 3)>>> a, b, c = [1, 2, 3]>>> a, b, c(1, 2, 3)>>&gt

2018-06-11 16:14:40 137

转载 python 列表递归求和、计数、求最大元素

转载：https://blog.csdn.net/li_zhonglei/article/details/75735556利用python的递归来执行求和、计数、求最大元素的方法简直溜到爆，这里粘贴一下代码：列表的递归求和：def sum(list): if list==[]: return 0 return list[0]+sum(list[1:])测试：p...

2018-06-11 11:01:55 1350

转载卷积神经网络复杂度分析（时间复杂度，空间复杂度）

原文：https://blog.csdn.net/laolu1573/article/details/79196160复杂度对模型的影响时间复杂度决定了模型的训练/预测时间。如果复杂度过高，会导致模型训练和预测耗费大量时间，既无法快速的验证想法和改善模型，也无法做到快速的预测。空间复杂度决定了模型的参数数量。由于维度灾难的限制，模型的参数越多，训练模型所需的数据量就越大，而现实生活中的数据集通常不...

2018-06-05 14:51:41 10319 1

转载 Batch Normalizatoin学习笔记

原文地址：https://blog.csdn.net/hjimce/article/details/50866313我们知道再神经网络训练之前，都需要对输入数据做一个归一化处理，那么具体为什么要归一化呢？归一化之后又什么好处呢？原因在于神经网络学习过程本质就是为了学习数据分布，一旦训练数据与测试数据的分布不同，那么网络的泛化能力也大大降低；另外一方面，一旦每批训练数据的分布各不相同（batch梯度...

2018-06-05 14:19:07 519

原创深度学习面试题总结

一、CNN为什么可以在CV/NLP/Speech等领域都可以使用？1. 卷积是因为输入数据的局部相关性；2. 权值共享是因为输入数据的局部特征具有平移不变性，即在不同位置具有共性的局部特征。这样，经过多层次堆叠，低层局部特征可以抽取成高层全局特征。3. 权值共享能够降低参数量，而且降低了网络的训练难度。note: 如果权值不共享，那就是局部连接层了。在某些应用，如人脸在不同的区域存在不同的特征（眼...

2018-06-05 13:08:57 625

原创机器学习自测题知识点总结

1、余弦相似性：把两个物品得属性看成向量，那么这两个物品得余弦相似就是这两个向量夹角得余弦。余弦得定义如下: 例题：甲、乙、丙三人去看了两场电影。甲对A电影的评分是3，对B电影的评分是4。乙对A电影的评分是5...

2018-06-05 11:17:36 299

转载过拟合问题：正则化（转）

转载原文正则化方法：防止过拟合，提高泛化能力在训练数据不够多时，或者overtraining时，常常会导致overfitting(过拟合)。其直观的表现如下图所示，随着训练过程的进行，模型复杂度增加，在training data上的error渐渐减小，但是在验证集上的error却反而渐渐增大——因为训练出来的网络过拟合了训练集，对训练集外的数据却不work。为了防止overfitting，可以用的...

2018-05-21 10:40:43 220

转载决策树学习概述

转载链接转载的一篇关于决策树的知识，感觉这篇比较容易理解。脑子太笨了。。基于树的学习算法在数据科学竞赛中相当常见。这些算法给预测模型赋予了准确性、稳定性以及易解释性。其中，决策树算法也是引人关注的「随机森林」算法的基础构造模块。本文介绍了决策树的概念和简单实现，使用生动的示例帮助理解，希望能够对你有所帮助。对于 ML 的入门者来说，决策树很容易上手。本教程将介绍：决策树是什么如何构建决策树使用 P...

2018-05-16 11:09:22 489

LSTM情感分析数据集.zip

里面包含nlp情感分析训练测试时所使用的数据集（正例，负例），以及词向量文件。

2019-09-06

调参手册-一个框架解决几乎所有机器学习问题.pdf

该文档描述了机器学习工程常规流程，以及常用机器学习超参数常用调参范围。大家都知道对于机器学习来说参数是非常重要的。因为大部分时间都是通过调节参数，训练模型来提高精度。因为分析的套路很简单，就那么几步，常用的算法也就那么几个，以为把算法调用一下就可以了么，那是肯定不行的。实际过程中，调用完算法后，结果一般都不怎么好，这个时候还需要进一步分析，哪些参数可以调优，哪些数据需要进一步处理，还有什么更合适的算法等等问题。

2019-09-02

数据指标与分析流程.pdf

该文档为数据指标与分析流程,详细介绍了数据分析的流程，格式为PDF。内容清晰，可以作为学习数据分析学习的很好文档。

2019-07-30

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人