2019年10月_hellocsz

转载当你阐述的能让别人看懂才算是真的理解

当你阐述的能让别人看懂才算是真的理解周志华《Machine Learning》学习笔记（17）--强化学习https://blog.csdn.net/u011826404/article/details/75576856

2019-10-10 11:26:22 172

转载 Kaggle入门

https://blog.csdn.net/u010094934/article/details/77689151Kaggle初学者五步入门指南，七大诀窍助你享受竞赛https://blog.csdn.net/MisterJiaJia/article/details/81054068【Kaggle从入门到放弃】（01）：竞赛类型https://blog.csdn.net/wyx10...

2019-10-09 12:34:56 140

一、流式计算的背景在日常生活中，我们通常会先把数据存储在一张表中，然后再进行加工、分析，这里就涉及到一个时效性的问题。如果我们处理以年、月为单位的级别的数据，那么多数据的实时性要求并不高；但如果我们处理的是以天、小时，甚至分钟为单位的数据，那么对数据的时效性要求就比较高。在第二种场景下，如果我们仍旧采用传统的数据处理方式，统一收集数据，存储到数据库中，之后在进行分析，就可能无法满足时效性的要求。...

2019-10-16 17:56:06 673

转载最长公共子序列最长公共子串

公共子串和公共子序列是不同的class maxstr(): def LCS(self,string1,string2): len1 = len(string1) len2 = len(string2) res = [[0 for i in range(len1+1)] for j in range(len2+1)] ...

2019-10-16 12:57:17 274

转载 27个Jupyter Notebook小提示与技巧

27个Jupyter Notebook小提示与技巧Keyboard ShortcutsPretty Display of Varibles16. Executing Shell Commands在 notebook 中执行 shell 命令非常容易，你可以像下面这样列出当前目录下的文件：!lsJupyterNotebookTips.ipynb LinearRe...

2019-10-12 16:00:31 342

转载关于计算机视觉领域数据增强的一些常用的方法

为什么需要数据增强：一般而言，比较成功的神经网络需要大量的参数，许许多多的神经网路的参数都是数以百万计，而使得这些参数可以正确工作则需要大量的数据进行训练，而实际情况中数据并没有我们想象中的那么多数据增强的作用：增加训练的数据量，提高模型的泛化能力增加噪声数据，提升模型的鲁棒性如何获得大量的数据：一种方法是获得新的数据，这种方法比较麻烦，需要大量的成本，而...

2019-10-10 17:22:36 1049

转载 Ensemble Learning 和 stacking、blending 区别

1 Ensemble Learning-模型融合通过对多个单模型融合以提升整体性能。1.1 Voting投票制即为，投票多者为最终的结果。例如一个分类问题，多个模型投票（当然可以设置权重）。最终投票数最多的类为最终被预测的类。1.2 AveragingAveraging即所有预测器的结果平均。回归问题，直接取平均值作为最终的预测值。（也可以使用加权平均）分类问题，...

2019-10-10 17:10:50 1116

转载 TF-IDF

TF-IDF算是nlp工程师必须掌握的入门级别的算法。作为兴趣爱好，之前曾阅读过几篇介绍该算法的博客，对其只是知道个大概。最近在看吴军老师的《数学之美》，里面对TF-IDF的介绍使得我对该算法有了更深刻的认识。现将个人对该算法的理解整理如下：TF-IDF是一种统计方法，用来评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它①在文件中出现的次数成正比增加，但...

2019-10-10 16:58:59 337

转载维度灾难

假设一个正方形代表二维特征空间，特征空间的平均值是这个正方形的中心，到这个中心距离为一个单位距离的样本分布在一个单位圆中。不在这个单位圆的样本相对于中心更接近正方形的边角。这些样本因为特征值差距很大（如对角的样本）而很难分类。由图9可以看出，如果样本都落在内切圆中，分类将会简单很多：有意思的是如果我们一直增加维度，那正方形（超立方体）中的圆（超球面）的体积是如何变化的呢？超立方体的体...

2019-10-10 16:48:24 484

转载 Laplace(拉普拉斯)算子

【摘要】　　Laplace算子作为边缘检测之一，和Sobel算子一样也是工程数学中常用的一种积分变换，属于空间锐化滤波操作。拉普拉斯算子（Laplace Operator）是n维欧几里德空间中的一个二阶微分算子，定义为梯度（▽f）的散度（▽·f）。拉普拉斯算子也可以推广为定义在黎曼流形上的椭圆型算子，称为拉普拉斯-贝尔特拉米算子。（百度百科）【原理】　　拉普拉斯算子是二阶微分线性算子，...

2019-10-10 16:40:47 35909 7

转载什么是数据泄露

读完分类与回归算法的评估指标、排序算法的评估指标以及机器学习模型的离线评估方法之后，你已经知道了在机器学习中的该使用什么指标来评估模型以及使用什么方法来评估模型，但是在现实生活中评估模型时经常会遇到一个问题：数据泄露（data leakage），这里我们来对数据泄露做一个解读。什么是数据泄露先举个贴近生活的例子，你作为一名优秀的算法工程师，你的志向是去通过机器学习算法解决生活中的很多实际问...

2019-10-09 12:26:42 6580

转载交叉验证与留一验证的区别

2019-10-09 11:41:00 5020

转载拉普拉斯平滑处理

拉普拉斯平滑处理 Laplace Smoothing背景:为什么要做平滑处理?　　零概率问题，就是在计算实例的概率时，如果某个量x，在观察样本库（训练集）中没有出现过，会导致整个实例的概率结果是0。在文本分类的问题中，当一个词语没有在训练样本中出现，该词语调概率为0，使用连乘计算文本出现概率时也为0。这是不合理的，不能因为一个事件没有观察到就武断的认为该事件的概率是0。拉普拉斯的理论支...

2019-10-08 17:22:23 490

转载核函数

代数与核函数是一个意思　5）高斯函数正态分布就是一个高斯函数；高斯函数和高斯核函数，形式类似；　6）其它高斯核函数，也称为 RBF 核（Radial Basis Function Kernel），也称为径向基函数；高斯核函数的本质：将每一个样本点映射到一个无穷维的特征空间；无穷维：将 m*n 的数据集，映射为 m*m 的数据集，m 表示样本个数，n 表示原始...

2019-10-08 17:17:58 1222

转载 clip 和 tile函数

2019-10-07 11:33:53 623

转载 plt.scatter 散点图

plt.scatter() 参数#plt.scatter() 散点图#plt.scatter(x,y,s=20,c = None,marker = 'o',cmap = none,norm = none,vmin = none,vmax = none,alpha = none,linewidths = none,verts = none,edgecolors = none,ho...

2019-10-07 11:28:58 2158

转载 interview experience

很有意思的一个话题，面试官让纸上写代码，其实笔试做题目是一样的意思。正常来讲程序员这种职业能力如何基本上几句话就能探个究竟，面试需要做笔试的公司很多，不用笔试直接面试的公司也是相当多，参加笔试的一般大公司或者规模比较小的一些公司，大公司有笔试主要公司流程决定的，需要走的流程比较多，笔者从事软件行业十几年，参加面试好像就做过一次题目，很多老程序员，面试的时候看到有笔试，直接选择走人。现在就公司常见...

2019-10-06 12:25:22 200

转载 dict 遍历

由于dict也是一个集合，所以，遍历dict和遍历list类似，都可以通过 for 循环实现。直接使用for循环可以遍历 dict 的 key：d = { 'Adam': 95, 'Lisa': 85, 'Bart': 59 }for key in d: print key...LisaAdamBart之前提到过，在dict中，可以通过d[索引]或者...

2019-10-06 11:16:30 1022

转载字典与散列表哈希

散列表Python用散列表来实现dict。散列表其实是一个稀疏数组（总是有空白元素的数组称为稀疏数组）。在一般书中，散列表里的单元通常叫做表元（bucket）。在dict的散列表当中，每个键值对都占用一个表元，每个表元都有两个部分，一个是对键的引用，一个是对值的引用。因为每个表元的大小一致，所以可以通过偏移量来读取某个表元。Python会设法保证大概还有三分之一的表元是空的，当快...

2019-10-06 10:44:30 263

转载 _repr_ _str_. _init_

代码例子如下： Python中这个_repr_函数，对应repr(object)这个函数，返回一个可以用来表示对象的可打印字符串：尝试生成这样一个字符串，将其传给 eval()可重新生成同样的对象；否则，生成用尖括号包住的字符串，包含类型名和额外的信息(比如地址) ；一个类(class)可以通过 __repr__() 成员来控制repr()函数作用在其实例上时...

2019-10-06 09:16:46 135

转载激活函数的作用

一、激活函数出现的原因思考这么一个问题：现在有一个二分类问题，我们要将下面的三角形和圆点进行正确的分类，如图1所示。我们试着用神经网络解决这个问题。跟大家说明一下，这是一个线性不可分的问题，就是你在这个平面里，找不到一条直线可以把图中的三角形和圆点完全分开。如果你能找到，算你厉害！解决思路：（1）用不带激活函数的单层感知机来解决。首先我们想到利用最简单的单层感知机来解决，单层感...

2019-10-05 10:07:58 799 2

转载 @和-> 代表什么?

在def定义函数的时候, @和-> 代表什么?@propertydef attrs(self) -> _Attrs: pass@property是一个装饰器，它能够使得类把一个方法变成属性调用的。关于-> _Attrs->常常出现在python函数定义的函数名后面，为函数添加元数据,描述函数的返回类型，从而方便开发人员使用。比如：...

2019-10-04 10:37:50 576

转载 merge 和 join

merge : 根据相同列名对齐pandas的merge方法提供了一种类似于SQL的内存链接操作，官网文档提到它的性能会比其他开源语言的数据操作（例如R）要高效。和SQL语句的对比可以看这里merge的参数on：列名，join用来对齐的那一列的名字，用到这个参数的时候一定要保证左表和右表用来对齐的那一列都有相同的列名。left_on：左表对齐的列，可以是列名，也可以是和dat...

2019-10-03 23:55:59 846

转载交叉验证与网格搜索

1.交叉验证背景在机器学习算法中，当数据量不充分时，需要对数据进行重复使用，就出现了交叉验证方法（Cross Validation）,简称CV。交叉验证顾名思义就是重复使用数据，把数据分为训练集（Trading Set）、验证集（Validation Set）、测试集（Test Set），每次随机选出n组数据，用训练集训练出n个模型，测试集对n个模型进行评价，选出最终模型。2.交叉验证方法...

2019-10-02 11:22:51 397

转载参数和超参数

1. 参数(parameters)/模型参数　由模型通过学习得到的变量，比如权重和偏置2. 超参数(hyperparameters)/算法参数根据经验进行设定，影响到权重和偏置的大小，比如迭代次数、隐藏层的层数、每层神经元的个数、学习速率等...

2019-10-02 10:18:21 199

转载 ipynb 格式文件

最近碰到文件名后缀为.ipynb文件，起初没太在意这种文件格式，用Notepad++打开之后看到也是类似于JSON格式的信息，以为也是为其他的一些文件服务的（类似于配置一些HTML文件的配置文件）。但是后来才发现这也是一种文本表示形式，只不过需要特殊的工具才能打开展示（小菜鸟才疏学浅，之前连这种格式的文件都没见过。。。）OK，废话少说，直接切入重点说下.ipynb文件的三种打开方式：1，G...

2019-10-01 21:53:12 32111 3

hellocsz的博客