神经网络样本不平衡,神经网络的不确定性

最新推荐文章于 2024-05-22 11:08:50 发布

vvccyyqq

最新推荐文章于 2024-05-22 11:08:50 发布

阅读量346

点赞数

分类专栏： html 文章标签：神经网络机器学习深度学习

原文链接：http://www.xiaofamao.com/jishu/44.html

版权

html 专栏收录该内容

187 篇文章 2 订阅

订阅专栏

以下那些分类算法可以较好地避免样本不平衡问题A KNN BSVM C Bayes D神经网络答案选A，求解释

。

KNN只是取了最近的几个样本点做平均而已，离预测数据较远的训练数据对预测结果不会造成影响，但是svm、Bayes和NN每一个训练样本果都会对预测结果产生影响，于是如果样本不平衡的话KNN的效果最好，举个极端一点例子：答案只有A与B，但是训练样本中A的个数占99%，而B只有1%，svm、Bayes和NN训练出来的结果，恐怕预测任何数据给出的答案都是A，但是KNN不会。

谷歌人工智能写作项目：小发猫

神经网络为什么每次运行的结果不一致呢？求高手（权值和阈值是训练出来的）

怎么用spss神经网络来分类数据

。

用spss神经网络分类数据方法如下：神经网络算法能够通过大量的历史数据，逐步建立和完善输入变量到输出结果之间的发展路径，也就是神经网络，在这个神经网络中，每条神经的建立以及神经的粗细（权重）都是经过大量历史数据训练得到的，数据越多，神经网络就越接近真实。

神经网络建立后，就能够通过不同的输入变量值，预测输出结果。例如，银行能够通过历史申请贷款的客户资料，建立一个神经网络模型，用于预测以后申请贷款客户的违约情况，做出是否贷款给该客户的决策。

本篇文章将用一个具体银行案例数据，介绍如何使用SPSS建立神经网络模型，用于判断将来申请贷款者的还款能力。

选取历史数据建立模型，一般会将历史数据分成两大部分：训练集和验证集，很多分析者会直接按照数据顺序将前70%的数据作为训练集，后30%的数据作为验证集。

如果数据之间可以证明是相互独立的，这样的做法没有问题，但是在数据收集的过程中，收集的数据往往不会是完全独立的（变量之间的相关关系可能没有被分析者发现）。

因此，通常的做法是用随机数发生器来将历史数据随机分成两部分，这样就能够尽量避免相同属性的数据被归类到一个数据集当中，使得建立的模型效果能够更加优秀。

在具体介绍如何使用SPSS软件建立神经网络模型的案例之前，先介绍SPSS的另外一个功能：随机数发生器。SPSS的随机数发生器常数的随机数据不是真正的随机数，而是伪随机数。

伪随机数是由算法计算得出的，因此是可以预测的。当随机种子（算法参数）相同时，对于同一个随机函数，得出的随机数集合是完全相同的。与伪随机数对应的是真随机数，它是真正的随机数，无法预测也没有周期性。

目前大部分芯片厂商都集成了硬件随机数发生器，例如有一种热噪声随机数发生器，它的原理是利用由导体中电子的热震动引起的热噪声信号，作为随机数种子。

如何训练神经网络

1、先别着急写代码训练神经网络前，别管代码，先从预处理数据集开始。我们先花几个小时的时间，了解数据的分布并找出其中的规律。

Andrej有一次在整理数据时发现了重复的样本，还有一次发现了图像和标签中的错误。所以先看一眼数据能避免我们走很多弯路。

由于神经网络实际上是数据集的压缩版本，因此您将能够查看网络（错误）预测并了解它们的来源。如果你的网络给你的预测看起来与你在数据中看到的内容不一致，那么就会有所收获。

一旦从数据中发现规律，可以编写一些代码对他们进行搜索、过滤、排序。把数据可视化能帮助我们发现异常值，而异常值总能揭示数据的质量或预处理中的一些错误。

2、设置端到端的训练评估框架处理完数据集，接下来就能开始训练模型了吗？并不能！下一步是建立一个完整的训练+评估框架。在这个阶段，我们选择一个简单又不至于搞砸的模型，比如线性分类器、CNN，可视化损失。

获得准确度等衡量模型的标准，用模型进行预测。这个阶段的技巧有：·固定随机种子使用固定的随机种子，来保证运行代码两次都获得相同的结果，消除差异因素。·简单化在此阶段不要有任何幻想，不要扩增数据。

扩增数据后面会用到，但是在这里不要使用，现在引入只会导致错误。

·在评估中添加有效数字在绘制测试集损失时，对整个测试集进行评估，不要只绘制批次测试损失图像，然后用Tensorboard对它们进行平滑处理。·在初始阶段验证损失函数验证函数是否从正确的损失值开始。

例如，如果正确初始化最后一层，则应在softmax初始化时测量-log(1/n_classes)。·初始化正确初始化最后一层的权重。如果回归一些平均值为50的值，则将最终偏差初始化为50。

如果有一个比例为1:10的不平衡数据集，请设置对数的偏差，使网络预测概率在初始化时为0.1。正确设置这些可以加速模型的收敛。·人类基线监控除人为可解释和可检查的损失之外的指标。

尽可能评估人的准确性并与之进行比较。或者对测试数据进行两次注释，并且对于每个示例，将一个注释视为预测，将第二个注释视为事实。

·设置一个独立于输入的基线最简单的方法是将所有输入设置为零，看看模型是否学会从输入中提取任何信息。·过拟合一个batch增加了模型的容量并验证我们可以达到的最低损失。

·验证减少训练损失尝试稍微增加数据容量。

在模式识别、人工神经网络方法中，为什么要进行数据预处理呢？

1.原数据可能数据量很大，维数很，计算机处理起来时间复杂度很高，预处理可以降低数据维度。2.数据的很多特性非常影响神经网络等分类模型的效果。

比如数据值得分布不在一个尺度上，当地气温值与当地月工资显然不在一个数量级上，这时，需要数据规范化，把这两个特征的数据都规范到0到1，这样使得它们对模型的影响具有同样的尺度。

3.当然，数据预处理还有很多，比如中心化，去噪，降维，平滑，变换等等，各有各的目的，总之都是为了最终分类器的效果服务，由于原数据可能含有大量的噪声，去除噪声是有必要的。

现在有一组数据用神经网络分类怎么办

神经网络分类问题

神经网络是新技术领域中的一个时尚词汇。很多人听过这个词，但很少人真正明白它是什么。本文的目的是介绍所有关于神经网络的基本包括它的功能、一般结构、相关术语、类型及其应用。

“神经网络”这个词实际是来自于生物学，而我们所指的神经网络正确的名称应该是“人工神经网络（ANNs）”。在本文，我会同时使用这两个互换的术语。

一个真正的神经网络是由数个至数十亿个被称为神经元的细胞（组成我们大脑的微小细胞）所组成，它们以不同方式连接而型成网络。人工神经网络就是尝试模拟这种生物学上的体系结构及其操作。

在这里有一个难题：我们对生物学上的神经网络知道的不多！因此，不同类型之间的神经网络体系结构有很大的不同，我们所知道的只是神经元基本的结构。

Theneuron--------------------------------------------------------------------------------虽然已经确认在我们的大脑中有大约50至500种不同的神经元，但它们大部份都是基于基本神经元的特别细胞。

基本神经元包含有synapses、soma、axon及dendrites。

Synapses负责神经元之间的连接，它们不是直接物理上连接的，而是它们之间有一个很小的空隙允许电子讯号从一个神经元跳到另一个神经元。

然后这些电子讯号会交给soma处理及以其内部电子讯号将处理结果传递给axon。而axon会将这些讯号分发给dendrites。

最后，dendrites带着这些讯号再交给其它的synapses，再继续下一个循环。如同生物学上的基本神经元，人工的神经网络也有基本的神经元。

每个神经元有特定数量的输入，也会为每个神经元设定权重（weight）。权重是对所输入的资料的重要性的一个指标。

然后，神经元会计算出权重合计值（netvalue），而权重合计值就是将所有输入乘以它们的权重的合计。每个神经元都有它们各自的临界值（threshold），而当权重合计值大于临界值时，神经元会输出1。

相反，则输出0。最后，输出会被传送给与该神经元连接的其它神经元继续剩余的计算。

Learning--------------------------------------------------------------------------------正如上述所写，问题的核心是权重及临界值是该如何设定的呢？

世界上有很多不同的训练方式，就如网络类型一样多。但有些比较出名的包括back-propagation,deltarule及Kohonen训练模式。

由于结构体系的不同，训练的规则也不相同，但大部份的规则可以被分为二大类别-监管的及非监管的。监管方式的训练规则需要“教师”告诉他们特定的输入应该作出怎样的输出。

然后训练规则会调整所有需要的权重值（这是网络中是非常复杂的），而整个过程会重头开始直至数据可以被网络正确的分析出来。监管方式的训练模式包括有back-propagation及deltarule。

非监管方式的规则无需教师，因为他们所产生的输出会被进一步评估。

Architecture--------------------------------------------------------------------------------在神经网络中，遵守明确的规则一词是最“模糊不清”的。

因为有太多不同种类的网络，由简单的布尔网络（Perceptrons），至复杂的自我调整网络（Kohonen），至热动态性网络模型（Boltzmannmachines）！

而这些，都遵守一个网络体系结构的标准。一个网络包括有多个神经元“层”，输入层、隐蔽层及输出层。输入层负责接收输入及分发到隐蔽层（因为用户看不见这些层，所以见做隐蔽层）。

这些隐蔽层负责所需的计算及输出结果给输出层，而用户则可以看到最终结果。现在，为免混淆，不会在这里更深入的探讨体系结构这一话题。

对于不同神经网络的更多详细资料可以看Generation5essays尽管我们讨论过神经元、训练及体系结构，但我们还不清楚神经网络实际做些什么。

TheFunctionofANNs--------------------------------------------------------------------------------神经网络被设计为与图案一起工作-它们可以被分为分类式或联想式。

分类式网络可以接受一组数，然后将其分类。例如ONR程序接受一个数字的影象而输出这个数字。或者PPDA32程序接受一个坐标而将它分类成A类或B类（类别是由所提供的训练决定的）。

更多实际用途可以看ApplicationsintheMilitary中的军事雷达，该雷达可以分别出车辆或树。联想模式接受一组数而输出另一组。

例如HIR程序接受一个‘脏’图像而输出一个它所学过而最接近的一个图像。联想模式更可应用于复杂的应用程序，如签名、面部、指纹识别等。

TheUpsandDownsofNeuralNetworks--------------------------------------------------------------------------------神经网络在这个领域中有很多优点，使得它越来越流行。

它在类型分类/识别方面非常出色。神经网络可以处理例外及不正常的输入数据，这对于很多系统都很重要（例如雷达及声波定位系统）。很多神经网络都是模仿生物神经网络的，即是他们仿照大脑的运作方式工作。

神经网络也得助于神经系统科学的发展，使它可以像人类一样准确地辨别物件而有电脑的速度！前途是光明的，但现在...是的，神经网络也有些不好的地方。这通常都是因为缺乏足够强大的硬件。

神经网络的力量源自于以并行方式处理资讯，即是同时处理多项数据。因此，要一个串行的机器模拟并行处理是非常耗时的。

神经网络的另一个问题是对某一个问题构建网络所定义的条件不足-有太多因素需要考虑：训练的算法、体系结构、每层的神经元个数、有多少层、数据的表现等，还有其它更多因素。

因此，随着时间越来越重要，大部份公司不可能负担重复的开发神经网络去有效地解决问题。

Conclusion--------------------------------------------------------------------------------希望您可以通过本文对神经网络有基本的认识。

Generation5现在有很多关于神经网络的资料可以查阅，包括文章及程序。我们有Hopfield、perceptrons（2个）网络的例子，及一些back-propagation个案研究。

Glossary--------------------------------------------------------------------------------NN神经网络，NeuralNetworkANNs人工神经网络，ArtificialNeuralNetworksneurons神经元synapses神经键self-organizingnetworks自我调整网络networksmodellingthermodynamicproperties热动态性网络模型。

vvccyyqq

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
神经网络样本不平衡,神经网络的不确定性

Theneuron--------------------------------------------------------------------------------虽然已经确认在我们的大脑中有大约50至500种不同的神经元，但它们大部份都是基于基本神经元的特别细胞。Conclusion--------------------------------------------------------------------------------希望您可以通过本文对神经网络有基本的认识。
复制链接

扫一扫