- 博客(683)
- 资源 (104)
- 收藏
- 关注
原创 数据散布的度量
http://blog.csdn.net/pipisorry/article/details/72820982考察评估数值数据散布或发散的度量。这些度量包括极差、分位数、四分位数、百分位数和四分位数极差。五数概括可以用盒图显示,它对于识别离群点是有用的。方差和标准差也可以指出数据分布的散布。集中趋势集中趋势(central tendency)在统计学中是指一组数据向某一中心值靠拢的程度...
2017-05-31 16:35:46 14910
原创 时钟问题
http://blog.csdn.net/pipisorry/article/details/72764547时钟问题1.行程问题中时钟的标准制定;2.时钟的时针与分针的追及与相遇问题的判断及计算;3.时钟的周期问题。时钟问题可以看做是一个特殊的圆形轨道上2人追及或相遇问题,不过这里的两个“人”分别是时钟的分针和时针。时钟问题有别于其他行程问题是因为它的速度和总路程的度量方式不再是常规的米每秒或者
2017-05-26 11:11:00 2425
原创 格雷码Gray Code
http://blog.csdn.net/pipisorry/article/details/72356418格雷码简介 在一组数的编码中,若任意两个相邻的代码只有一位二进制数不同,则称这种编码为格雷码(Gray Code),另外由于最大数与最小数之间也仅一位数不同,即“首尾相连”,因此又称循环码或反射码。格雷码(Gray Code)又称Grey Code、葛莱码、格莱码、戈莱码、循环码、反射二
2017-05-18 11:02:47 17242
原创 C++:函数指针
http://blog.csdn.net/pipisorry/article/details/72458168函数指针函数存放在内存的代码区域内,它们同样有地址。如果我们有一个int test(int a)的函数,那么,它的地址就是函数的名字,如同数组的名字就是数组的起始地址。1、函数指针的定义方式:data_types (*func_pointer)( data_types arg1, data
2017-05-18 10:33:38 1647
原创 C++:模板
http://blog.csdn.net/pipisorry/article/details/72353250C++ 模板模板是泛型编程的基础,泛型编程即以一种独立于任何特定类型的方式编写代码。模板是创建泛型类或函数的蓝图或公式。库容器,比如迭代器和算法,都是泛型编程的例子,它们都使用了模板的概念。每个容器都有一个单一的定义,比如 向量,我们可以定义许多不同类型的向量,比如 vector 或
2017-05-16 21:14:14 935
原创 C++ 函数
http://blog.csdn.net/pipisorry/article/details/72353172定义函数C++ 中的函数定义的一般形式如下: return_type function_name( parameter list ){ body of the function}在 C++ 中,函数由一个函数头和一个函数主体组成。下面列出一个函数的所有组成部分:返回类型:一个函数可以返
2017-05-16 21:07:30 940
原创 Python模块:bisect二分算法模块
http://blog.csdn.net/pipisorry/article/details/72307432Bisect模块简介Python 的列表(list)内部实现是一个数组,也就是一个线性表。在列表中查找元素可以使用 list.index() 方法,其时间复杂度为O(n)。对于大数据量,则可以用二分查找进行优化。二分查找要求对象必须有序,其基本原理如下:1.从数组的中间元素开始,如果中间元
2017-05-16 19:03:10 5333 1
原创 Linux: 系统设置与备份策略
http://blog.csdn.net/pipisorry/article/details/72123258系统基本设置网络设置 (手动设置与DHCP自动取得)日期与时间设置语系设置LANG 与 locale 的指令能够查询目前的语系数据与变量, /etc/locale.conf 其实就是语系的配置文件。 此外,系统的语系与你目前软件的语系数据可能是可以不一样的!如果想要知道目前“系统语系”的话
2017-05-15 16:59:05 1902
原创 Linux:网络安全与主机基本防护:限制端口, 网络升级与 SELinux
http://blog.csdn.net/pipisorry/article/details/72123815系统基本设置网络设置 (手动设置与DHCP自动取得)目前的主流网卡为使用以太网络协定所开发出来的以太网卡 (Ethernet),因此我们 Linux 就称呼这种网络接口为 ethN (N 为数字)。 举例来说,机上面有一张以太网卡,因此主机的网络接口就是 eth0 (第一张为 0 号开始)
2017-05-15 16:53:52 3869 1
原创 Linux:Linux常用网络指令
http://blog.csdn.net/pipisorry/article/details/72123888网络参数设定使用的指令ifconfig :查询、设定网络卡与 IP 网域等相关参数;ifup, ifdown:这两个档案是 script,透过更简单的方式来启动网络接口;route :查询、设定路由表 (route table)ip :复合式的指令, 可
2017-05-15 15:12:16 3422
原创 深度学习:梯度消失和梯度爆炸
几种RNNs并不能很好的处理较长的序列。一个主要的原因是,RNN在训练中很容易发生梯度爆炸和梯度消失,这导致训练时梯度不能在较长序列中一直传递下去,从而使RNN无法捕捉到长距离的影响。
2017-05-13 19:32:36 4965 1
原创 深度学习:径向基网络(RBF)
如果对于输入空间的某个局部区域只有少数几个连接权值影响输出,则该网络称为局部逼近网络。常见的局部逼近网络有RBF网络、小脑模型(CMAC)网络、B样条网络等。RBF网络能够逼近任意的非线性函数,可以处理系统内的难以解析的规律性,具有良好的泛化能力,并有很快的学习收敛速度,已成功应用于非线性函数逼近、时间序列分析、数据分类、模式识别、信息处理、图像处理、系统建模、控制和故障诊断等。为什么RBF网络学
2017-05-13 19:22:24 11059
原创 原码, 反码, 补码
http://blog.csdn.net/pipisorry/article/details/71157146原码, 反码, 补码的基础概念和计算方法在探求为何机器要使用补码之前, 让我们先了解原码, 反码和补码的概念。对于一个数, 计算机要使用一定的编码方式进行存储。 原码, 反码, 补码是机器存储一个具体数字的编码方式。原码原码就是符号位加上真值的绝对值, 即用第一位表示符号, 其余位表示值。
2017-05-04 01:18:05 890
原创 深度学习:激活函数
激活函数神经网络神经元中,输入的 inputs 通过加权,求和后,还被作用了一个函数,这个函数就是激活函数 Activation Function。 为什么要用激活函数神经网络中激活函数的主要作用是提供网络的非线性建模能力,如不特别说明,激活函数一般而言是非线性函数。假设一个示例神经网络中仅包含线性卷积和全连接运算,那么该网络仅能够表达线性映射,即便增加网络的深度也依旧还是线性映射,难以有效建模
2017-05-04 00:43:40 35945 1
原创 C++:标准程序库-STL迭代器Iterator
http://blog.csdn.net/pipisorry/article/details/71156760暂时保存一下对templete类型迭代时报错c++vector:iterator it出错error: need ‘typename’ before ‘std::set::iterator’ because ‘std::set’ is a dependent scope也就是在set::i
2017-05-04 00:02:41 940
原创 拓扑排序Topological Sorting
http://blog.csdn.net/pipisorry/article/details/71125207拓扑排序Topological Sorting在图论中,拓扑排序(Topological Sorting)是一个有向无环图(DAG, Directed Acyclic Graph)的所有顶点的线性序列。且该序列必须满足下面两个条件:每个顶点出现且只出现一次。若存在一条从顶点 A 到顶点 B
2017-05-03 23:16:54 3240
原创 “ 鸡尾酒会问题”(cocktail party problem)
Introduction“ 鸡尾酒会问题”(cocktail party problem)是在计算机语音识别领域的一个问题,当前语音识别技术已经可以以较高精度识别一个人所讲的话,但是当说话的人数为两人或者多人时,语音识别率就会极大的降低,这一难题被称为鸡尾酒会问题。解决方案斯坦福大学的Andrew NG教授的机器学习公开课(http://v.163.com/special/opencourse/m
2017-05-01 22:57:26 5634
原创 深度学习:神经网络neural network
http://blog.csdn.net/pipisorry/article/details/70919374神经网络一般有前馈神经网络FFNN模型(feedforward neural network),隐层多的可以叫深度神经网络DNN(deep nn)。固定基函数的线性组合构成的回归模型和分类模型。我们看到,这些模型具有一些有用的分析性质和计算性质,但是它们的实际应用被维数灾难问题...
2017-04-28 16:50:34 14034 1
原创 深度学习:感知机perceptron
感知机是二分类的线性分类模型,输入是特征向量,输出是类别,取值+1,-1。感知机学习旨在求出将训练数据进行线性划分的分离超平面wx + b = 0,其中w是超平面的法向量,b是超平面的截距。感知机模型1.分离超平面将样本点分成两部分,位于法向量w所指向的一面是正样本,另一面则是负样本;2.由输入空间到输出空间的模型函数如下:策略1.特征空间中任意一个样本点x0到分离超平面的距离可以记为:2.感知机
2017-04-22 20:58:21 1198
原创 深度学习:综述
深度学习相比于传统方法的优势随着训练量的提高,传统方法很快走到天花板,而Deep Learning的效果还能持续走高。其实这是一个特征表达力的问题,传统方法特征表达力,不如Deep Learning的多层学习得到的更有效果的表达。举个例子,假定有一种疾病,这种疾病容易在个高且胖的人群,以及个矮且瘦的人群中易感。那么任意从给一个特征角度上看,比如肥胖,那么胖的这部分人中,得此病的概率为50%,不胖的
2017-04-22 20:56:58 1834 1
原创 矩阵论:向量求导/微分和矩阵微分
http://blog.csdn.net/pipisorry/article/details/68961388复杂的矩阵函数求导。著名的matrix cookbook为广大的研究者们提供了一本大字典,里面有着各种简单到复杂矩阵和向量的求导法则。布局(Layout)矩阵求导有两种布局,分子布局(numerator layout)和分母布局(denominator layout)。...
2017-04-03 16:51:05 50828 8
原创 时间序列分析
http://blog.csdn.net/pipisorry/article/details/62053938时间序列简介时间序列是时间间隔不变的情况下收集的时间点集合。这些集合被分析用来了解长期发展趋势,为了预测未来或者表现分析的其他形式。但是什么时间序列?与常见的回归问题的不同?1、时间序列是跟时间有关的。所以基于线性回归模型的假设:观察结果是独立的。在这种情况下是不成立的。2、随着上升或者下
2017-03-22 17:04:51 54450 9
原创 Bloom Filter布隆过滤器
http://blog.csdn.net/pipisorry/article/details/64127666Bloom Filter简介 Bloom Filter是一种空间效率很高的随机数据结构,它利用位数组很简洁地表示一个集合,并能判断一个元素是否属于这个集合。布隆过滤器(英语:Bloom Filter)是1970年由布隆提出的。它实际上是一个很长的二进制向量和一系列随机映射函数。布隆过
2017-03-20 20:33:49 6522 2
原创 Count-Min Sketch 算法
http://blog.csdn.net/pipisorry/article/details/64126199统计频率算法问题:如果老板让你统计一个实时的数据流中元素出现的频率,并且准备随时回答某个元素出现的频率,不需要的精确的计数,那该怎么办?hashmap解决直觉告诉我们可能需要一个巨大的 HashMap 来统计各个元素的出现频率,但由于不同的元素的个数可能非常大,以至于是个天...
2017-03-20 15:16:36 28422 2
原创 BitMap算法
http://blog.csdn.net/pipisorry/article/details/62443757BitMapBitMap从字面的意思,很多人认为是位图,其实准确的来说,翻译成基于位的映射。在所有具有性能优化的数据结构中,大家使用最多的就是hash表,是的,在具有定位查找上具有O(1)的常量时间,多么的简洁优美。但是数据量大了,内存就不够了。当然也可以使用类似外排序来解决问题的,由于要
2017-03-19 22:05:50 43192 7
原创 python模块:array数组模块
http://blog.csdn.net/pipisorry/article/details/62889137数组模块array简介在Python中,列表是一个动态的指针数组,而array模块所提供的array对象则是保存相同类型的数值的动态数组。list的内存分析参考[python数据类型的内存分析 ]。数组并不是Python中内置的标配数据结构,不
2017-03-17 16:54:58 13110
原创 数值分析:数据插值方法
http://blog.csdn.net/pipisorry/article/details/62227459插值、拟合和逼近的区别据维基百科,科学和工程问题可以通过诸如采样、实验等方法获得若干离散的数据,根据这些数据,我们往往希望得到一个连续的函数(也就是曲线)或者更加密集的离散方程与已知数据相吻合,这过程就叫做拟合。通过拟合得到的函数获得未知点的数据的方法,叫做插值。其中,拟合函数经过所有已知
2017-03-15 16:53:22 82402 12
原创 数据预处理:独热编码(One-Hot Encoding)
在很多任务中,特征并不总是连续值,而有可能是分类值。例如,考虑一下的三个特征:如果将上述特征用数字表示,效率会高很多。例如:["male", "from US", "uses Internet Explorer"] 表示为[0, 1, 3]["female", "from Asia", "uses Chrome"]表示为[1, 2, 1]但是,即使转化为数字表示后,上述数据也不能直接用在我们的分类器中。
2017-03-10 11:32:04 71085 10
原创 集成方法:渐进梯度回归树GBRT(迭代决策树)
http://blog.csdn.net/pipisorry/article/details/60776803单决策树C4.5由于功能太简单,并且非常容易出现过拟合的现象,于是引申出了许多变种决策树,就是将单决策树进行模型组合,形成多决策树,比较典型的就是迭代决策树GBRT和随机森林RF。在最近几年的paper上,如iccv这种重量级会议,iccv 09年的里面有不少文章都是与Boosting和随
2017-03-08 11:29:52 26835 1
原创 Latex:TexStudio的使用
http://blog.csdn.net/pipisorry/article/details/54565608Texsdudio 快捷键The keyboard shortcuts can be modified at Options -> Shortcuts.The following list is a rough overview of the defaults keyboard short
2017-01-16 15:03:24 49832 2
原创 Latex:入门教程
http://blog.csdn.net/pipisorry/article/details/54571521总的来说,LaTex是一套排版系统,与word那种所见即所得对排版方式不太,用LaTex排版更像是写程序一样,将想要的排版效果用指令写出来,再通过LaTex编译成文档。简单来说,你只要按照要求撰写tex文件,就能够通过LaTex生成排版好的pdf文件。有些人可能听到写程序就头大了,其实使用...
2017-01-16 14:40:51 339616 1
原创 Latex:简介及安装
http://blog.csdn.net/pipisorry/article/details/53998352LaTex是一个排版工具,功能强大。它是一个“所想即所得”的工具,你想怎么设定格式,就怎么设定格式。不过,前提是你知道一点latex语法(或者说,latex的命令),并且安装有latex的环境。先要安装latex软件(如下面的tex发行版texlive),之后才能使用latex编辑器Tex
2017-01-15 21:09:20 55149 1
原创 python复杂网络库networkx:绘图draw
http://blog.csdn.net/pipisorry/article/details/54291831networkx使用matplotlib绘制函数draw(G[,pos,ax,hold])Draw the graph G with Matplotlib.draw_networkx(G[,pos,arrows,with_labels])Draw the graph G usi
2017-01-09 19:14:13 19472 4
原创 python复杂网络库networkx:算法
http://blog.csdn.net/pipisorry/article/details/54020333Networks算法Algorithms最短路径Shortest Pathsshortest_pathall_shortest_pathsshortest_path_lengthaverage_shortest_path_lengthhas_pathAdvanced InterfaceDe
2017-01-04 16:22:54 15266
原创 R语言:安装及使用
http://blog.csdn.net/pipisorry/article/details/53640638ubuntu下安装sudo apt-get install -y r-base源码安装参考官网[Installing R under Unix-alikes]皮皮blogR参考手册[The R Manuals]from: http://blog.csdn.net/pipisorry/art
2016-12-14 15:39:01 2165
原创 非参数估计:核密度估计KDE
http://blog.csdn.net/pipisorry/article/details/53635895核密度估计Kernel Density Estimation(KDE)概述密度估计的问题由给定样本集合求解随机变量的分布密度函数问题是概率统计学的基本问题之一。解决这一问题的方法包括参数估计和非参数估计。参数估计参数估计又可分为参数回归分析和参数判别分析。在参数回归分析中,人们假定数据分布
2016-12-14 11:38:46 116877 20
原创 pandas小记:pandas高级功能
http://blog.csdn.net/pipisorry/article/details/53486777pandas高级功能:面板数据、字符串方法、分类、可视化。面板数据{pandas数据结构有一维Series,二维DataFrame,这是三维Panel}pandas有一个Panel数据结构,可以将其看做一个三维版的,可以用一个由DataFrame对象组成的字典或一个三维ndarray来创建
2016-12-06 15:44:59 24968
原创 python模块:网络协议和支持
python模块:网络协议和支持 webbrowser调用浏览器显示html文件webbrowser.open('map.html')[webbrowser — Convenient Web-browser controller]皮皮bloguuid/hmac/hashlib生成唯一ID在有些情况下你需要生成一个唯一的字符串。我看到很多人使用md5()函数来达
2016-11-30 16:55:38 2413
Parameter estimation for text analysis
2016-05-23
pdfstudio安装文件及破解
2016-03-24
matplotlib安装包
2016-01-02
pandas安装文件
2016-01-01
matplotlib安装文件
2016-01-01
GB2UTF8.exe
2015-08-07
A First Course in Probability 第8版 Sheldon Ross
2014-10-31
wps symbol fonts
2017-02-27
Anand.Rajaraman-Mining of Massive Datasets
2016-06-01
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人