统计学习
聆一
请不要活在别人的信条里
展开
-
统计学习笔记12
信息增益算法:信息增益比:信息增益值的大小是相对于训练集而言的,并没有绝对的意义;也就是说,当分类问题比较困难时,训练数据集的经验熵较大,此时的信息增益就偏大,反之会偏小;我们使用信息增益比来进行校正:决策树的生成算法:ID3算法的改进:决策树的剪枝:决策树生成算法递归地产生决策树,直到不能继续下去为止;这样生成的决策树往往对训练数据集有较好地分类,但由于过于注重对训练...原创 2018-11-15 17:15:29 · 142 阅读 · 1 评论 -
深度学习---对抗样本生成
对抗样本攻击:在深度学习神经网络(DNN)输入较小的干扰因素会使DNN出现误判,这种攻击被称为是对抗样本攻击对抗样本:是指在正常样本中有目的性地添加的一些干扰因素,使得DNN出现误判举例说明对抗样本分析带来的影响:1、通过更改路标信息,使得车辆的DNN系统将左转识别为右转2、在激烈的商业竞争环境下,对抗样本攻击导致恶性竞争对抗样本分析分类:1、白盒:白盒情景下攻击者对模型完全掌握,包...原创 2019-03-31 10:00:18 · 5830 阅读 · 0 评论 -
深度学习1
深度前馈网络深度前馈网络,也叫前馈神经网络,其目标是近似一个函数;该模型是前向的,是因为信息流过x的函数,再通过定义函数f的过程,之后流到输出y;在模型输出与模型本身之间没有反馈连接;当前馈连接扩展为包含反馈连接时,叫做循环神经网络前馈神经网络之所以被称为网络,是因为它通常由多个不同的函数复合表示;该模型与一个有向无环图关联,而图是描述函数是如何复合在一起的...原创 2019-04-05 19:44:06 · 118 阅读 · 0 评论 -
深度学习2
线性模型:线性模型,比如说“逻辑回归”、“线性回归”可以很好的拟合相应的对象;但线性模型存在明显的缺陷,就是该模型的能力被局限在线性函数里,它没有办法去理解任意两个变量间的相互作用为了将线性模型扩展,使其能够表示非线性函数,我们可以不将线性模型不用再x本身,而是将x做一个非线性变换,再对非线性变换的结果加以处理可选择的几种映射1、使用通用的映射F,例如无限维的F;如果F有足够高的的维数,它...原创 2019-04-05 20:02:52 · 132 阅读 · 0 评论 -
数据结构与算法笔记1
线性表:线性表简称表,是n个具有相同类型的数据元素的有限序列概念:长度:线性表中元素的个数,长度等于0的线性表称为空表,一个非空表常记为L = (a1,a2,…,an)序偶关系:系列中,相邻的元素ai-1,ai之间存在序偶关系<ai-1.ai>前驱:ai-1叫做ai的前驱后继:ai叫做ai-1的后继线性表的数据是抽象数据类型,在实际问题中抽象数据类型将被具体的数据类型所取...原创 2019-04-01 22:34:54 · 174 阅读 · 0 评论 -
数据结构与算法笔记2
单链表:用一组任意的存储单元存放线性表的元素,这组存储单元可以连续也可以不连续,甚至可以零散地分布在内存中的任意位置指针:在每个存储单元存取数据元素时,还必须存储其后继元素所在的地址,这个地址信息称为指针结点:数据与指针组成了数据元素的存储映像,称为结点注:由于每个结点只有一个指针域,故称为单链表双链表:在单链表的每个结点中再设置一个指向其前驱结点的指针域,这样就形成了双链表栈:限定仅在...原创 2019-04-02 22:10:16 · 97 阅读 · 0 评论 -
数据结构与算法3
栈与队列是最简单缓存结构,只支持数据的存储与访问,不支持数据之间的任何关系数据的使用顺序:1、较后生成与存储的数据先使用2、先生成的数据先使用栈和队列只需要保证新存入元素存入与取出的顺序,而不用记录或保证新存入元素与已有元素之间的关系...原创 2019-04-12 20:03:04 · 131 阅读 · 0 评论 -
K-近邻算法讲解
概述:给定一个训练数据集,对新的输入实例,在训练数据据集中找到与该实例最近邻的K个实例,这K个实例的多数属于某个类,就把该实例分为这个类K近邻算法的三要素:1、K值的选择2、距离的度量3、分类决策规则注:K近邻算法中,当训练集、距离度量、K值、及分类决策规则确定后,对于一个新的输入实例,其输出的所属类别也就确定了K值的选择:K值的选择对K近邻算法有重大的影响,如果K值较小,就会使“...原创 2019-04-20 21:42:35 · 1372 阅读 · 0 评论 -
设置MinGW-w64 C/C++编译器
最近遇倒一些提高matlab代码效率的问题,团队研究决定采用matlab与c混合编译的方式将matlab里的逻辑语句及一系列复杂繁琐的for语句用c转掉,并通过vs执行以提高代码运行速度既然要用混合编译的方式,就会设计到MinGW-w64 C/C++ 编译器的使用,下面我就分享一下我下载安装编译器的一些经验,希望对朋友们有帮助我首先在官网上下在了相应的exe文件,本以为就这样就可以跑通了,谁知...原创 2019-05-18 21:58:19 · 1563 阅读 · 0 评论 -
哈夫曼编码的终止条件
哈夫曼编码是一种优化编码,在对字符串进行编码时,它可以将出现频率较大的字符片段采用短编码,而对与出现频率较高的字符段则可采用长编码下面我来分享一下在进行哈夫曼编码时,使用递归的时候得注意的一个小细节if (current == null) throw new ArgumentNullException(); if (current.LeftChild == n...原创 2019-05-24 15:51:21 · 288 阅读 · 0 评论 -
Kmp算法
前不久接触到KMP算法,它再数组查询上很巧妙,下面就来和大家分享一下这是比较好的一篇学习资料:https://www.cnblogs.com/ZuoAndFutureGirl/p/9028287.html这是具体算法:下面我就用其中的一个例子来分析一下,这样大家也方便理解一点,同时也有助于我以后的复习:...原创 2019-05-21 10:34:58 · 103 阅读 · 0 评论 -
神经网络讲义
神经网络的介绍:神经网络是一种运算模型,由大量的节点(或称神经元)之间相互联接构成。每个节点代表一种特定的输出函数,称为激励函数(activation function)。每两个节点间的连接都代表一个对于通过该连接信号的加权值,称之为权重,这相当于人工神经网络的记忆。这是人类神经元:模拟人类神经元,我们建立一种特殊的模型,这就是神经网络神经网络的发展一波三折,每一次改变都伴随着技术的革新...原创 2019-05-26 14:21:49 · 639 阅读 · 0 评论 -
读修乃华机器学习
机器学习的四大功能:分类、聚类、降维、推断贝叶斯网络:有节点与有向边组成,是无环有向图,节点为随机变量,有向边表示随机变量之间的相互关系,有条件概率表示关系的强度;用来预测不确定事件与概率事件牛顿方法:https://blog.csdn.net/wjk7186912/article/details/72851079 https://blog.csdn.net/qq_18343569...原创 2019-03-30 09:42:03 · 339 阅读 · 0 评论 -
k近邻算法
k近邻算法代码实现import numpy as npimport operator##给出训练数据以及对应的类别def create_dataset(): group = np.array([[1.0, 2.0], [1.2, 0.1], [0.1, 1.4], [0.3, 3.5]]) labels = ['A', 'A'...原创 2019-03-17 10:24:15 · 151 阅读 · 0 评论 -
统计学习11
决策树的剪枝:原创 2018-11-14 11:47:23 · 164 阅读 · 0 评论 -
统计学习笔记13
支持向量机线性可分支持向量机与硬间隔最大化对于一个二分类问题,假设输入空间与特征空间是两个不同的空间。输入空间为欧几里得空间或离散集合,特征空间为欧几里得空间或希尔伯特空间;线性可分支持向量机假设这两个空间的元素一一对应,并将输入空间的输入映射到特征空间的特征向量;非线性支持向量机则利用一个从输入空间到特征空间的非线性映射将输入映射为特征向量;所以,输入都是由输入空间转换到特征空间,支持向量机...原创 2018-11-20 20:03:51 · 100 阅读 · 0 评论 -
统计学习14
函数间隔:几何间隔:函数间隔与几何间隔之间的关系:线性可分的训练数据集有无穷多个线性可分分离超平面,但几何间隔最大的分离超平面是唯一的最大间隔分离超平面:其中,函数间隔的取值并不影响最优化问题的求解线性可分支持向量机学习算法(最大间隔法)注:这里将函数间隔取值为1...原创 2018-11-21 11:43:36 · 154 阅读 · 0 评论 -
统计学习笔记12
CART算法:CART算法是在给定输入随机变量X的条件下输分类Y的条件概率分布的学习方法;CART算法假设树是二叉树,内部结点是“是”或“否”,左边结点为“是”,右边结点为“否”;递归地二分每个特特征,即将输入空间(特征空间)划分为有限个单元,并在这些单元上预测概率分布CART算法由以下两步组成:(1)决策树的生成(基于训练数据集生成决策树,生成的决策树要尽量大) (2)决...原创 2018-11-16 17:36:31 · 111 阅读 · 0 评论 -
统计学习笔记13
逻辑斯谛回归模型:首先,我们介绍一下逻辑斯谛分布:逻辑斯谛回归模型:最大熵模型:最大熵原理:最大熵原理认为,在学习概率模型时,在所有可能的概率模型中,熵最大的模型是最好的模型;通常我们用约束条件来确定概率模型的集合,所以最大熵原理可以表述为在满足约束条件的模型集合中选取熵最大的模型最大熵模型的定义:...原创 2018-11-19 19:49:06 · 156 阅读 · 0 评论 -
统计学习16
合页损失函数此时,线性支持向量机学习的另外一种解释为最优化一下目标函数:对于合页损失函数来说,只有当样本点被正确分类且函数间隔(确信度)大于1时,损失为0我们有以下结论:...原创 2018-11-26 10:59:59 · 102 阅读 · 0 评论 -
LNP
L2范数:https://blog.csdn.net/zchang81/article/details/70208061原创 2018-11-30 16:32:11 · 1076 阅读 · 0 评论 -
python进行数据分析
合并数据集数据库的合并(merage)与连接(join)运算是通过一个或多个键将行链接起来的默认情况下,merage做的是"inner"连接,结果中的键是交集df1 = DataFrame({'key' : ['b','b','a','c','a','a','b'],'data1' : range( ...: 7)}) df2 = DataFrame({'key' : ...原创 2018-12-22 20:52:39 · 145 阅读 · 0 评论 -
python对数据进行处理分析
数据规整化:合并进行多个键的合并left = DataFrame({'key1' : ['foo','foo','bar'],'key2' :['one','two','on ...: e'],'lval' : [1,2,3]}) right = DataFrame({'key1' : ['foo','foo','bar','bar'],'key2' : ['one...原创 2018-12-30 11:24:02 · 1242 阅读 · 0 评论 -
python进行数据处理与分析
轴向连接arr = np.arange(12).reshape((3,4)) np.concatenate([arr,arr],axis = 1) np.concatenate([arr,arr],axis = 0) concat函数// 对于没有重叠索引的Seriess1 = Series([0,1],index = ['a','b'])s2 = Seri...原创 2019-01-04 22:16:39 · 1093 阅读 · 0 评论 -
python数据处理与分析
使用stack将列转换为行,使用unstack将行转换为列data = DataFrame(np.arange(6).reshape((2,3)),index = pd.Index(['Ohio', ...: 'Colorado'],name = 'state'),columns = pd.Index(['one','two','three'],n ...: ame = 'n...原创 2019-01-05 15:20:42 · 2901 阅读 · 0 评论 -
排序方法总结
插入排序1、直接插入排序排序思想:将一个记录插入到已经排好序的有序表中,从而得到一个新的记录增一的有序表示例:c#代码:2、希尔插入排序排序思想:先将原序列分为若干子序列,再对这些子序列进行直接插入排序,待整个序列基本有序时,进行最后一次直接插入排序示例:c#代码:选择排序1、直接选择排序排序思想:在待排序列中,找一个最小的与第一个元素交换;之后再从剩下的序列中找到...原创 2019-06-14 12:25:42 · 558 阅读 · 0 评论