人工智能失败的创新点

BoilingHotPot

已于 2024-01-23 16:20:37 修改

阅读量247

点赞数

分类专栏：人工智能文章标签：人工智能深度学习神经网络

于 2023-04-13 00:04:31 首次发布

本文链接：https://blog.csdn.net/BoilingHotPot/article/details/130119697

版权

人工智能专栏收录该内容

5 篇文章 0 订阅

订阅专栏

来源：https://www.worthpen.top/blog?id=656617466aa58e39d9301929

1 激活函数
2 基于对错弱标签的分类问题
3 基于蒸馏技术的强化学习
4 动态卷积
5 研究自动创建网络模型
6 基于权重计算最大值的优化方法
7 语音和文字的多模态表征
8 不确定度学习
9 基于光流的语义分割
10 贝叶斯优化
- 10.1 已得出结论
- 10.2 不可行原因
11 可解释性的识别网络![在这里插入图片描述](https://i-blog.csdnimg.cn/blog_migrate/8b426967a750bfbb3ee447597acae7cb.png)

1 激活函数

尝试在原点处具有跳跃间断点而在其他位置导数为1的激活函数. 其中, 较为基础的版本为跳跃间断点距离为2, 如下图所示.
在这里插入图片描述
也可以考虑, 间断点距离可训练的激活函数.
结论: 可能由三方面不足. 一是具有跳跃间断点的函数非线性拟合能力较差, 而神经网络的基础就需要首先具有过拟合能力, 再提高泛化能力, 因此可能跳跃间断点激活函数能力不行. 此外, 截距b不会影响跳跃间断点, 因此JDLU的性能差不是由于b导致的. 二是激活函数可能也需要其线性组合的函数具有优秀的拟合函数特性, 在这点上, 可能JDLU组合后产生的矩形函数不符合好的激活函数的特点；三，该激活函数和自身相加减后的结果不具有激活函数的特性，而relu在相加减后效果仍然较好。
此外，由于归一化问题已经较好的解决了梯度问题，因此，不需要研究该激活函数。

2 基于对错弱标签的分类问题

由于已知错误标签，那么可以认为其他的以平均的概率为正确，则该问题属于弱监督学习下的多标签不确切分类问题。同时，由于可以通过多次错误得到正确标签，因此，该问题难度低于弱监督学习。基于不确切弱监督学习可以实现该功能，因此，该问题属于工程问题。

3 基于蒸馏技术的强化学习

通过老师指导，实现有监督的强化学习。老师可以是传统控制模型，如制导律。
实际上，如果已经存在老师标签，则直接使用老师即可，不需要使用强化学习来学习老师；如果说需要学习多个老师引起的不能使用老师，则多个老师可能引起策略的混乱，因此该方案是不可行的。如果说需要老师进行初始的策略预热，则不需要进行蒸馏技术的研究，直接大概训练出一个模型即可，并且基于预热属于工程问题。
使用现有策略训练强化学习模型的唯一用处在于预训练模型，而预训练对准确率要求不高，因此不需要使用蒸馏技术。

4 动态卷积

基于transformer生成的凸组合系数实时计算卷积的凸组合系数，而不是由CNN训练后得到的固定卷积凸组合系数。然而，CNN不同的系数具有不同的形状鉴别能力，动态化后可能使这种能力消失。因此，动态化目前大多数用在多模态融合过程中控制不同模态的权重和分类过程中的特征生成环节（该应用目前无法解释）。
transformer最大的区别在于全局的特征提取。CNN是局部的特征提取，RNN是序列的特征提取。此外，transformer还用到了动态网络技术、迁移学习技术（用于保证全局的无归纳偏置的学习）。
结论：目前已经有相关成果：Local Relation Networks for Image Recognition。即使研究基于动态网络的CNN，也没有价值，因为无归纳偏置意味着通用性更强，且子监督的迁移学习技术保证了无归纳偏置学习的效果。因此，即使动态CNN有效，也是没有价值的。

5 研究自动创建网络模型

5.1 模型构想

神经元级别的架构搜索. 假定每个神经元为独立的个体，每个神经元具有自己生长出突触的能力，可以随机性与周边的神经元建立连接，越远的建立连接的概率越小。神经元越多，消耗的能量就越多。每个神经元和每个连接均消耗能量, 其中, 神经元消耗的能量固定, 连接消耗的能量与其权重相关。

5.2 架构搜索的不同实现方案的区别

强化学习的nas相当于维护两套网络，一套是用于产生新的网络结构的网络，一套是实际使用的网络。由于两者的分别维护属性，导致收敛速度慢，需要不断的重新训练参数。
遗传算法的nas相当于随机算法，与生物进化比较类似，但是由于为随机算法，效率不高。
梯度策略的nas为将神经网络的多个操作转化为概率，实现可以求梯度，进行梯度下降，只需要维护一个网络，并且使用梯度下降法，收敛速度快。
SMBO相当于在通过不断改变实际使用的网络的结构参数以建立结构参数和网络精度的函数关系，再对函数关系进行梯度下降，求得最优的结构参数，不断循环。该方法同样相当于维护两个网络。
综合分析，采用梯度策略的nas比较好，其次是强化学习。

5.3 研究方案

(1) 对于神经网络, 权重和连接的存在是不是等价, 因为卷积神经网络中的连接可以使用一个概率(来源于DARTS算法)来表示, 通过训练该概率, 实现对卷积神经网络的剪枝, 在神经网路中此概率是否和权重等价, 因此不需要这个概率, 仅有权重即可实现剪枝;
(2) 通过超网实现架构搜索, 会导致网络规模过大. 那么, 就需要实现自我发展进步的网络结构. 想要实现对任意位置新增连接和节点, 需要将网络信息全部输入至网络结构控制器. 因此, 首先需要研究网络结构的编码方式, 可以将权重同样嵌入到编码中.
网络的处理能力和其可以综合的数据量相关。fc层可以综合全局的信息，但是其参数量太大。cnn参数量减小，但是只能综合局部空间的信息。自注意力参数量同样小，还能综合全局的信息，因此其效果更好
因此，自动架构搜索可以考虑架构所能综合的信息量进行指导架构生成，还可以考虑参数量。
这里的综合不意味着处理，而更接近将多个信息同时进行凸组合的能力。
(3) 是否可以通过强化学习或贝叶斯优化实现在现有网络的基础上有选择性的任意节点间连线, 并对连接进行松弛化, 实现可以通过梯度下降进行架构搜索; 如果选择性增加连线不成立, 可以尝试神经元对周边神经元快速增加连接，并通过能量约束，加速对无效连接的淘汰;
(4) 是否可以有选择性地增加网络节点, 而不是随机增加. 研究神经网络的深度和宽度如何影响神经网络的性能, 是否可以根据损失实现有选择性的增加网络节点, 并对连接进行松弛化, 实现可以通过梯度下降进行架构搜索; 如果选择性增加节点不成立. 可以尝试快速增加神经元，并通过能量约束，加速对无效神经元的淘汰.
(5) 针对(3)(4)进行联合，是否可以同时通过增加连线和节点, 并对连接进行松弛化, 实现可以通过梯度下降进行架构搜索

5.4 已得出结论

(1) 基于强化学习的架构搜索中，控制器只可以选择是否存在连线，不可对权重进行训练，因为对权重训练需要的计算量太大；

5.5 中止原因

研究NAS的主要原因是为了应对数量众多的不同数据集。然而，相同种类的数据集可以使用相同的基本架构，如图像使用CNN。数据的种类数量不多，因此针对该方面研究NAS的意义不大。此外，对于同类但数据量或者数据形式不同的数据集，只需要做出层数的改变即可。虽然层数的改变也需要架构搜索，但目前倾向于使用无归纳偏置的大模型进行训练。因此，这方面的NAS也就也是没有必要的。综上，NAS目前由于数据种类少和大模型的适用性，没有很大的研究价值。

6 基于权重计算最大值的优化方法

研究是否可以通过神经网络的权重计算该神经网络代表的函数的全局最优值对应的输入。
如：构建两个输入一个输出的拟合函数的数据集, 通过训练, 拟合该数据集, 将网络参数, 最小值和最小值对应的输入重新保存为新的数据集；重复以上过程, 获得多个数据集；使用新的网络对新的数据集进行训练, 尝试是否可以直接得到最小值和最小值对应的输入；
确定输入范围，给定输出结果，训练网络1得到权重。将若干权重和输入输出结果（可形成一张图）匹配为数据集。训练网络2使得网络2可以根据权重直接得到输入输出结果。后续可以使用网络3确定图的最大值。实现了通过权重确定神经网络最大值的能力。网络1存储某个数据集的信息；网络2存储权重和数据集的信息；网络3存储图及对应的最大点的关系。网络2相当于网络1的超集。该段的目的是一个推测最大值的问题，实际上具有数据集直接求最大值就行，而该方案区别在于利用了神经网络的外推能力，但是不能保证外推的准确性，因此这是没有意义的，相当于绕了一圈。
在分类问题中，数据集固定，相当于输入范围变成了输入值。权重可以随意调整，每个权重对应一个总的loss。不同的权重形成了一张权重图。但是这时需要前向执行多次来得到若干权重对应的loss，这效率很低。可以固定权重范围，通过调整数据集，得到输入输出结果图。最后将输入输出结果和固定权重范围匹配为数据集，进行训练，可以实现输入数据集即可得到权重图，进行得到最优权重。该方案需要大量的训练，训练完成后，可以直接由数据集得到网络的权重，节约了训练时间。同时，该方案综合了大量数据，可能有利于数据的外插预测，提高泛化性。
该方案通过推测得到权重loss图，而训练过程可以得到准确的权重loss图，不过训练中的权重loss图是局部的，而推测的权重loss图是全局的。推测的结果类似于不选择起始点，直接得到范围的权重loss图。在训练过程中，可以通过选择若干起始点得到全局的权重loss图，实际上这也是该推测方案的训练数据，训练过程中更加准确。此外，要指出的是，实际上目前的学习算法已经不在乎起始点在何处，网络的性能对于任意的初始点是近似的，因此，该方案目前来看虽然创新能很高（谷歌有类似的研究）但无意义。
此外，上述方案忽略了一个重要的问题，就是数据集如何作为输入，如果数据集通过权重的方式作为输入，那么网络2最后将拟合为一个loss函数，他将输入与输入的差异。输入的权重需要被训练，且输出的权重loss图就是训练过程中的权重loss图，且最优的结果就是输入的权重。这时网络2不能节约时间，结果也不会最优。因此该方案无效。
还有一点，网络1相当于数据集学习权重和损失构造数据集，网络2是根据数据集推理权重和损失，可以看出，网络2和网络1的概念是相同的，这就导致实际上网络2会成为蒙特卡洛取点计算，取的点足够多，就可以枚举。如果是枚举的图的结果的话，实际上所有权重构成的结果是超高维度的，数据量巨大，无法枚举，这个原因是超越上述局部问题和输入的形式的。如果输入数据，直接给出权重可能更有意义，权重图维度太高，数据量太大。那么上述通过权重给出数据图最后确定最大值的方案在高维数据下也是无效的。
如果输入为数据集，输出为权重，进行拟合。其实是元学习，针对元学习的研究，可以参照NAS，个人认为元学习的不必要的。元学习本质是根据记住大量数据对应的权重，当输入这些数据时，将这些权重调用出来。元学习是知识迁移的另一个形式，如果进行微调，则完全就是知识知识迁移。相对于元学习，知识迁移更加符合逻辑和大数据。

7 语音和文字的多模态表征

语音和文字的数据集可以训练得到多模态网络：
在这里插入图片描述
相比于单模态网络，该网络可以由语音-文字标签得到文字到表征。实际上，只要逆转语音-文字数据集的输入输出就可以得到不同的表征。但是，该网络仍是具有启发意义的。对该网络进行简化后：

结论：实际上通过自编码器就可以得到无标签文字数据集的表征。

8 不确定度学习

不确定度学习就是当loss过大时, 不对该样本进行学习, 此时认为这个样本时错误的.
Loss分布通常情况下是围绕某个均值分布，因此，不存在绝对单调的loss分布。同时，也有可能的loss分布是围绕多个均值的分布，只不过不同均值所对应的最大频率高。
那么，学习的样本应当包含频率最高均值所在的峰及loss更小的值的样本。因此，样本应当取比均值最高峰下降至90%（或其他百分比）对应的loss值小的所有样本。
不可行原因：实验结果不好，其结果如下表（复制到excel）。
version_name dataset_name model_name monitor monitor_value epoch config
version_2 cifar100 res_net Validation acc 70.61 108 {‘version_info’: ‘None’, ‘accelerator’: ‘auto’, ‘devices’: 1, ‘accumulate_grad_batches’: 1, ‘k_fold’: 1, ‘kth_fold_start’: 0, ‘precision’: 16, ‘log_name’: ‘lightning_logs’, ‘version_nth’: None, ‘seed’: None, ‘path_final_save’: None, ‘every_n_epochs’: 1, ‘save_top_k’: 1, ‘profiler’: None, ‘gradient_clip_val’: None, ‘is_check’: False, ‘annotation1’: ‘requires|必填’, ‘model_name’: ‘res_net’, ‘dataset_name’: ‘cifar100’, ‘stage’: ‘fit’, ‘max_epochs’: 200, ‘batch_size’: 128, ‘annotation2’: ‘optional|可选’, ‘annotation3’: ‘model parameters|模型参数’, ‘dim_in’: 32, ‘num_classes’: 100, ‘loss_name’: ‘uncertain_loss’, ‘kth_fold’: 0, ‘time’: ‘2023-06-18 13:50:20.891324’}
version_3 cifar100 res_net Validation acc 69.41 134 {‘version_info’: ‘None’, ‘accelerator’: ‘auto’, ‘devices’: 1, ‘accumulate_grad_batches’: 1, ‘k_fold’: 1, ‘kth_fold_start’: 0, ‘precision’: 16, ‘log_name’: ‘lightning_logs’, ‘version_nth’: None, ‘seed’: None, ‘path_final_save’: None, ‘every_n_epochs’: 1, ‘save_top_k’: 1, ‘profiler’: None, ‘gradient_clip_val’: None, ‘is_check’: False, ‘annotation1’: ‘requires|必填’, ‘model_name’: ‘res_net’, ‘dataset_name’: ‘cifar100’, ‘stage’: ‘fit’, ‘max_epochs’: 200, ‘batch_size’: 128, ‘annotation2’: ‘optional|可选’, ‘annotation3’: ‘model parameters|模型参数’, ‘dim_in’: 32, ‘num_classes’: 100, ‘loss_name’: ‘uncertain_loss’, ‘has_boundary’: True, ‘kth_fold’: 0, ‘time’: ‘2023-06-18 13:54:48.176174’}
version_4 cifar100 res_net Validation acc 70.22 178 {‘version_info’: ‘None’, ‘accelerator’: ‘auto’, ‘devices’: 1, ‘accumulate_grad_batches’: 1, ‘k_fold’: 1, ‘kth_fold_start’: 0, ‘precision’: 16, ‘log_name’: ‘lightning_logs’, ‘version_nth’: None, ‘seed’: None, ‘path_final_save’: None, ‘every_n_epochs’: 1, ‘save_top_k’: 1, ‘profiler’: None, ‘gradient_clip_val’: None, ‘is_check’: False, ‘annotation1’: ‘requires|必填’, ‘model_name’: ‘res_net’, ‘dataset_name’: ‘cifar100’, ‘stage’: ‘fit’, ‘max_epochs’: 200, ‘batch_size’: 128, ‘annotation2’: ‘optional|可选’, ‘annotation3’: ‘model parameters|模型参数’, ‘dim_in’: 32, ‘num_classes’: 100, ‘loss_name’: ‘celoss’, ‘kth_fold’: 0, ‘time’: ‘2023-06-18 14:54:40.676994’}
version_6 cifar100 res_net Validation acc 70.15 154 {‘version_info’: ‘with /max’, ‘accelerator’: ‘auto’, ‘devices’: 1, ‘accumulate_grad_batches’: 1, ‘k_fold’: 1, ‘kth_fold_start’: 0, ‘precision’: 16, ‘log_name’: ‘lightning_logs’, ‘version_nth’: None, ‘seed’: None, ‘path_final_save’: None, ‘every_n_epochs’: 1, ‘save_top_k’: 1, ‘profiler’: None, ‘gradient_clip_val’: None, ‘is_check’: False, ‘annotation1’: ‘requires|必填’, ‘model_name’: ‘res_net’, ‘dataset_name’: ‘cifar100’, ‘stage’: ‘fit’, ‘max_epochs’: 200, ‘batch_size’: 128, ‘annotation2’: ‘optional|可选’, ‘annotation3’: ‘model parameters|模型参数’, ‘dim_in’: 32, ‘num_classes’: 100, ‘loss_name’: ‘ada_loss’, ‘kth_fold’: 0, ‘time’: ‘2023-06-18 17:36:15.762699’}
version_8 cifar100 res_net Validation acc 68.21 180 {‘version_info’: ‘None’, ‘accelerator’: ‘auto’, ‘devices’: 1, ‘accumulate_grad_batches’: 1, ‘k_fold’: 1, ‘kth_fold_start’: 0, ‘precision’: 16, ‘log_name’: ‘lightning_logs’, ‘version_nth’: None, ‘seed’: None, ‘path_final_save’: None, ‘every_n_epochs’: 1, ‘save_top_k’: 1, ‘profiler’: None, ‘gradient_clip_val’: None, ‘is_check’: False, ‘annotation1’: ‘requires|必填’, ‘model_name’: ‘res_net’, ‘dataset_name’: ‘cifar100’, ‘stage’: ‘fit’, ‘max_epochs’: 200, ‘batch_size’: 128, ‘annotation2’: ‘optional|可选’, ‘annotation3’: ‘model parameters|模型参数’, ‘dim_in’: 32, ‘num_classes’: 100, ‘loss_name’: ‘uncertain_loss’, ‘has_boundary’: True, ‘kth_fold’: 0, ‘time’: ‘2023-06-18 18:50:23.281084’}
version_7 ILSVRC resnet50 Validation acc 75.42 117 {‘version_info’: ‘’, ‘accelerator’: ‘auto’, ‘devices’: 1, ‘accumulate_grad_batches’: 2, ‘k_fold’: 1, ‘kth_fold_start’: 0, ‘precision’: 16, ‘log_name’: ‘lightning_logs’, ‘version_nth’: None, ‘seed’: None, ‘path_final_save’: None, ‘every_n_epochs’: 1, ‘save_top_k’: 1, ‘profiler’: None, ‘gradient_clip_val’: None, ‘is_check’: False, ‘annotation1’: ‘requires|必填’, ‘model_name’: ‘resnet50’, ‘dataset_name’: ‘ILSVRC’, ‘stage’: ‘fit’, ‘max_epochs’: 120, ‘batch_size’: 128, ‘annotation2’: ‘optional|可选’, ‘annotation3’: ‘model parameters|模型参数’, ‘dim_in’: 224, ‘num_classes’: 1000, ‘loss_name’: ‘uncertain_loss’, ‘has_boundary’: True, ‘is_record’: True, ‘kth_fold’: 0, ‘time’: ‘2023-06-18 18:49:17.359638’}
version_9 ILSVRC resnet50 Validation acc 73.19 118 {‘version_info’: ‘’, ‘accelerator’: ‘auto’, ‘devices’: 1, ‘accumulate_grad_batches’: 2, ‘k_fold’: 1, ‘kth_fold_start’: 0, ‘precision’: 16, ‘log_name’: ‘lightning_logs’, ‘version_nth’: None, ‘seed’: None, ‘path_final_save’: None, ‘every_n_epochs’: 1, ‘save_top_k’: 1, ‘profiler’: None, ‘gradient_clip_val’: None, ‘is_check’: False, ‘annotation1’: ‘requires|必填’, ‘model_name’: ‘resnet50’, ‘dataset_name’: ‘ILSVRC’, ‘stage’: ‘fit’, ‘max_epochs’: 120, ‘batch_size’: 128, ‘annotation2’: ‘optional|可选’, ‘annotation3’: ‘model parameters|模型参数’, ‘dim_in’: 224, ‘num_classes’: 1000, ‘loss_name’: ‘ada_loss’, ‘kth_fold’: 0, ‘time’: ‘2023-06-18 19:36:57.722264’}
version_10 ILSVRC resnet50 Validation acc 75.97 103 {‘version_info’: ‘’, ‘accelerator’: ‘auto’, ‘devices’: 1, ‘accumulate_grad_batches’: 2, ‘k_fold’: 1, ‘kth_fold_start’: 0, ‘precision’: 16, ‘log_name’: ‘lightning_logs’, ‘version_nth’: None, ‘seed’: None, ‘path_final_save’: None, ‘every_n_epochs’: 1, ‘save_top_k’: 1, ‘profiler’: None, ‘gradient_clip_val’: None, ‘is_check’: False, ‘annotation1’: ‘requires|必填’, ‘model_name’: ‘resnet50’, ‘dataset_name’: ‘ILSVRC’, ‘stage’: ‘fit’, ‘max_epochs’: 120, ‘batch_size’: 128, ‘annotation2’: ‘optional|可选’, ‘annotation3’: ‘model parameters|模型参数’, ‘dim_in’: 224, ‘num_classes’: 1000, ‘loss_name’: ‘uncertain_loss’, ‘is_record’: True, ‘kth_fold’: 0, ‘time’: ‘2023-06-21 09:27:18.843933’}

9 基于光流的语义分割

任何识别与分割能力都离不开信息量，监督学习来源于标签，半监督学习来源于部分标签，无监督学习来源于先验，自监督学习来源于无标签数据的自有结构。针对分割问题，可以有如下几种信息来源：（1）标签（2）自监督图像结构（3）语义标签，对应现在的多模态（4）视频序列信息。

使用视频序列信息实际上就是使用光流信息。光流信息即前后两帧图像内同一像素的位移。这是可以较为精确的计算的。光流信息的使用有两种思路。一是使用带标签数据，输入为光流，训练出可以根据光流判断是否为同一实体的网络，该网络可以直接零样本迁移到其他网路中；二是设置光流的一致程度判断为同一物体对应的像素点，将其作为标签，进行无标签训练，这里的标签不是人工得到的，而是根据光流计算得到的。

实际上，第二点中，如果认为光流为标签，那么最优的结果实际上只能达到光流的精度，而这实际上已经预先设置了，因此，没必要将其训练成网络，直接使用不是更好吗？其实不然，如果直接使用光流，可能光流在不同情况下出现不同的判断，即在摇头时，认为头和身体不属于同一个个体，而在不摇头时又认为是一个个体。通过神经网络的模糊训练，可以将这两个数据同时输入，使得网络自己纠正错误，提升精度。或者说，光流有时认为头和身体是一个，红领巾和身体是一个，将这两种情况进行结合，就可以得到，头、身体、红领巾是一个个体。但是，实际上标签是错误的情况下，如相似的两个图，一个标签是头和身体是一个个体，一个标签是红领巾和身体是一个个体，这时不会训练得到正确的网络。也就是说，第二种方案不能提升精度，最好的结果就是光流得到的标签。

第一种方案分为子方案1将光流视为一种特征进行输入或者子方案2将光流用作迁移学习的信息。子方案1已经有很多研究成果，当前我还没有较好的思路。子方案2的迁移学习实际上就是分路实现光流和传统图像的融合识别，然后迁移光流通路。分路的相关研究已经存在，而迁移学习无非就是初始化问题或增加层数，这其中创新点有限，因此这一子方案也无法研究。

10 贝叶斯优化

思考贝叶斯优化的黑盒优化特性, 到底是否可以通过神经网络实现贝叶斯优化. 如果神经网络贝叶斯优化有效，则大概率得益于神经网络有效的归纳偏置形成的外推，可以利用失败案例6的求神经网络的最大值来实现求最优解或者通过梯度下降也可以。

10.1 已得出结论

(1) 贝叶斯优化相当于在通过不断改变实际使用的网络的结构参数获得大量参数和网络精度对应的数据集，以建立结构参数和网络精度的函数关系；再对函数关系进行梯度下降，求得最优的结构参数，不断循环。
可以将结构参数和网络精度的函数关系通过神经网络来表达。通过神经网络建模贝叶斯超参优化过程中的超参数x和结果y的关系, 并使用反向传播得到最大y对应的x, 反向传播过程中将x当作权重, 不断更新x的值最后得到对大y对应的x。
但是，由于结构参数和网络精度可能会出现频繁抖动，导致大量极小值，很容易出现局部收敛。因此，如果无法判断全局最优值，则基于神经网络的贝叶斯优化可能不会得到好的结果。
机器学习模型超参数调优一般认为是一个黑盒优化问题，所谓黑盒问题就是我们在调优的过程中只看到模型的输入和输出，不能获取模型训练过程的梯度信息，也不能假设模型超参数和最终指标符合凸优化条件，否则的话我们通过求导或者凸优化方法就可以求导最优解，不需要使用这些黑盒优化算法，而实际上大部分的模型超参数也符合这个场景。
(2)由于超参数得到的数据集比较稀疏，可能用于训练神经网络效果不会很好。

10.2 不可行原因

学习率可以通过adam+SGD来避免选取学习率和衰减。batch size影响小。epoch可以尽量多而使用早停法，同时可以断点重训练。其他超参数由于其是独立的，不存在随着维度大量增加训练次数的情况，因此额外的建模是不必要的。

11 可解释性的识别网络

通过以上网络架构进行分类。首先使用网络1进行识别，使用标签进行优化。然后将图片分割为n*n个patch，每个patch使用网络1进行识别，对于低置信度的结果，resize到输入尺寸后再次进行分割patch后识别，直到所有patch的预测的置信度都比较高。因为后期由于像素不可见，预测结果趋向于背景，因此，总会结束循环。当每个patch的置信度都比较高后，将patch的结果输入网络2进行分类，分类的结果再次联合之前同层高置信度的结果进行分类。网络2的作用是进行逻辑式的分类，网络1的作用是直觉式的分类。将网络2最后的输出结果与标签进行对比进行优化。

可以基于part-based数据集来做。

对于分割的步骤，可以用神经网络代替。

不可行原因：如果将分割步骤用神经网络代替，则该网络实际上就是resnet。在每个分割分类步骤中，实际上到达了阈值的图片相当于直接跳层接入到网络输出。由于将分割可以看作特征提取，因此，将分割用神经网络代替后，就是resnet。与resnet不同的是，该网络的层数是根据是否全部达到阈值进行判断的。然而，这一特点在当前深度神经网络架构下是不必要的。如果分割步骤使用人为的先验，则相当于resnet的子集。这并不一定可以提升精度。该网络在如此的设计下，其特点在于可以提高可解释性。但是，这种可解释性是非常浅显的解释，并不涉及学习的本质，因此无关紧要。

再次可行原因：受操场上带有盖子的沙坑的启发。基于逻辑的识别不仅仅增加了可读性，同样也可提升带有遮盖的物体的识别的正确率。如沙坑只需要识别出操场和坑，虽然遮挡了沙子，但仍可识别。这在深度网络中是不可行的。

再次不可行原因：目前的大模型已经具有表达决策逻辑的能力，因此，可以通过大模型实现逻辑的展示，而不必要设计相应的结构，在决策的流程中实现对逻辑的展示。此外，虽然逻辑网络可能有助于识别或其他，但是大模型已经具有逻辑表达能力，因此可能内部同样具有逻辑辅助能力。因此，逻辑网络不需要研究。虽然大模型有时给出错误逻辑，但是也是可以修正的，这与该解释网络给出的解释性相同，即该网络也有可能出现错误，并没有明显的优势