机器学习笔记

最新推荐文章于 2022-07-25 20:16:13 发布

yudonglin506311858

最新推荐文章于 2022-07-25 20:16:13 发布

阅读量321

点赞数

分类专栏：学习文章标签：学习在路上

本文链接：https://blog.csdn.net/yudonglin506311858/article/details/53863924

版权

学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

以新的思想来指导计算机的底层运算来比较人类智能，构建局部自组织能力的可成长的体系，使得其遍历到足够高维的层次。这种概率的运算与之前微积分的发展历程是一致的，即通过贝叶斯计算吧概率进行迭代运算，对应于微积分的无穷小量的加和，从而构建更高维度的结构，我认为就是类似于无限维的网络。因此我们可以以网络的各种性质来指导具体的算法构建和计算机运算，从而最终达到我们需要的对大规模数据的识别并且挖掘出有意义的信息。其中概率和统计是核心，我们之前一直希望构建的序列的运算就是一种对信息的处理。由于个人能力的有限，我们只能希望能够通过现实世界已有的成功经验当做一种seed序列，匹配到理想中的无限维序列，并找到其衍伸序列，与具体的现实建立一定的对应关系，如同BLAST算法揭示的。

（一）监督学习（参数/非参数算法，支持向量机，核函数，神经网络）。（二）无监督学习（聚类，降维，推荐系统，深入学习推荐）（三）在机器学习的最佳实践（偏差/方差理论；在机器学习和人工智能创新过程）

我们构建算法需要提前选择一定的可运算的统计量，各种定义的统计量的相对组合模式可以对应于微分方程，是我们最后可以运算的对象。我的理想是以网络的观点来对医疗信息的处理。各种性能需要一定的定义，然后才能在这个基础上继续评价和改进。可以模仿算法评估的底层计算次数。

网络的可学习性，对于新节点的关系连接可以等价于概率的贝叶斯计算。

实现人工智能的方法不是模拟人类，人类的智能是生物层次的大规模试错得出的一条可行的途径，对于机器的智能来说，有参考价值，但必须走不同的道路，只有这样才能弥补数亿年来的生物进化过程。

具体的应用，通过良好的定义能够逼近我们想要的问题，从而解决它们。理解各种医疗的数据，逼近最关键的不动点本征，为我们的具体应用提供极好的工具。

所谓的学习是基于大规模的训练集（网络数据），在个体的各种关键性的具有特定信息的特殊序列（接口），不断靶定，提供特定路径表达的概率，从而提供个体化的服务。这如同波函数的坍缩。关键是通过试错，排除和选择可能的路径，并在这个基础上不断遍历。学习导致的退火即路径形成是我们想要的结果，并且能够通过这种迭代不断优化。

我们有这样一个信念：总存在不同的变量之间可以以本征的线性关系表示，其他的可以视为这种关系的分布的不同位置。前者可以是房价和面积的关系，后者可以是房价和医院距离的关系。

基本假设：存在一定的统计分析，对不同变量构建回归的关系。而且进一步可以表示为微分方程的多层次耦合的结构。这一切都是基于已有的大规模数据收集的基础上才能做出的模型构建和判断做出。

多路径：不同的方式可以拟合现实的数据，这是马尔科夫序列的表达的结果。

连续性假设，这是各种问题答案存在的理论依据。

多指标的关系构建，如ABCDEFG分布与癌症的发生有一定的概率连接，假设分别是10%20%30%40%50%60%70%，具体的表达序列可以以邻接矩阵表示，然后我们可以观察大规模的病人和健康人，+表示-不表达，ABCDEFG+++++++则有着最大的患病概率，ABCDEFG-------患病概率最小，其余的表达模式的患病概率是一定的分布，我们希望能够通过对这种数据的模式的挖掘来对现在新来的一个检查的个体做出比较可靠的预测。我们一开始用布尔函数来表示，然后再推进到具体的概率表达和贝叶斯运算。

对于同样的问题，机器学习的思路是分类，以一定的特征做分布，然后提取出一定的边界函数作为评价的标准。理论上，无限的特征分类可以对应于现实中每一个具体的人的情况，这些特征的综合考虑就可以得出高概率成立的结论（与线性代数的傅里叶级数相似，当然我们要考虑精度和快速收敛）。这也是我一直在思考的序列与具体情况的对应。当然这样计算的规模和难度就极大，从而使得这种算法没有应用价值，因此根据自然界必然会存在的分布这种情况，我们可以预料到聚类的存在，即部分关系会具有更短的距离，和外部明显不同。实际上，这种聚类也是存在不同的分布，如其不同区段的序列比对。支持向量机能够处理无限多的特征。（定性描述，我们需要以概率的形式来改进，对于可能的特征之间的相互作用以概率来表达，即序列耦合形成的高维结构，参考DNA二级结构形成）。

这种聚类的存在对应于网络学说就是社群结构的形成，这是对应于节点之间关系的高维结构，是利用节点之间的相互作用形成的高于中心节点的二级结构。这通过对连接度的比较（不同的标准对应于不同的路径形成）可以得出高维结构的形成。因此本质上这种分布是先于定义存在的，即我们想要的模式识别（基于一定规则做大规模的计算判断，因此确定规则是很重要的，如新闻的聚类就需要确定关键词的数目之类的）。

在这些基础上，我们要建立高维的组学思维，理解大规模的数据是作为我们选择性表达的基底，即我们认为的隐马尔科夫模型的隐状态的矩阵（各种状态的相对比例），具体的表达是概率性的先状态（本质上是多可能的，当然，其存在一定分布，少数可能是大概率发生的，这是一种幂律分布）。在这个基础上的聚类算法才有意义，我们要构建高维结构，其可以与低维结构有比较确定的转换路径。

当前的聚类算法的粗糙度太大，我们需要更精细的分类，理论上底层的分类具有更大的确定性（如同微积分的无穷小量），再在这个基础上如同程序设计不断往上遍历形成表达式，函数，运算的循环结构等等。而且当前要摆脱的一个思想就是表达具有差异性就有更大的概率与特殊过程相关，我们应该从更底层的方式来思考，因为可能存在各种的周期性变化和脉冲式表达等等的干涉式的影响，以网络的节点的关系连接可能做出更好的解释。

无监督学习要自动找到数据的结构还是需要我们提取定义一些可以运算的量，才能根据这些作用量的判断形成不同层次的聚类。一切计算都需要运算的对象和规则。然后我们就可以期待这些大规模的运算可以为我们计算出不同层次的分类，这是超越个人认识的方法，如同数学结构能够告诉我们的信息超过构建其所需的信息，就是说我们的造物比我们聪明，但这也是我们摆脱自己限制的一种努力。

以上，我们希望能够对大规模的测量指标来做一定的聚类分析，从而以比较多的特征变化来对应于我们现实的基本，如糖尿病可以分解为的三多一少等等，这就需要我们已有的医学的知识来做这种描述性的工作。然后以此为基础，我们不断深入到更小的层次，如基因蛋白的表达模式，最终能够整合起来以数据的层次与机体的情况建立映射关系。

以线性代数来表示概率，从而实现对微积分的模仿，因此剧组的知识必不可少。

统计层次的关系构建，线性关系是最基本的假设，其余的复杂关系可以以一定基底的选择性表达来以任意精度逼近。数据越多，即考虑的变量越多，理论上能够更精确，但现实都是基于该结果的选择性表达，即有可能上调或者下调，当然在统计层次还是存在的。

预测函数的构建和实现。误差量的统计分析，可以作为我们的数据的评价标准（误差越小越好），这是可以通过算法实现的，因为一切都是清晰可比较的。其中的函数值的最小值求解可以使用其他算法计算。局部最优的求解，选择有可能的参数组合，基于一定判断，不断迭代。这种迭代可以通过经过处理的变量的重新赋值。如、这种参数的更新就是一种学习。

梯度下降算法可以用来最小化任何代价函数。

矩阵可以用于表达各种复杂的网络关系，可以在这个层次以不同矩阵的选择性表达来以任意精度逼近真实的网络关系。这就是线性回归模型作为底层可以不断遍历到高维结构，即为什么能够对大规模数据的处理产生如此有力的作用。矩阵的元素就是运算的对象，其各种变化如奇异值分解、本征值求解就是这种过程。而且矩阵之间还存在一定的交互作用，其最终的本征值求解可以理解为马尔科夫序列的表达过程。最终交互关系以矩阵相乘来表示，其可以在这个层次形成更大的途径，即特定的路径。这也和我们的概率的相乘和相加构建很好的数学结构，即最终的概率路径形成。

这还可以理解为多变量的回归分析，矩阵的阶数对应于变量数，通过矩阵内部的运算可以涌现出最后的线性关系。这与我们的序列运算其实很相似，即都是对多状态变量的处理，而且我们需要考虑交互作用。因为变量之间可能产生的耦合作用具有一定的分布，如同DNA一级序列结构可以根据序列的匹配形成二级结构，即A*B.

，参数的定义。

然后在以上的线性代数的基础上构建一套语言：变量定义，逻辑比较算术位运算，表达式的形成，循环结构等等的运算结果的形成，等等。本质上我们可以通过统计来大体了解具体的语言，如疾病的频率分析。

我们的前面有IBM的watson医生，它选择的是对各种关键词的识别来从海量数据筛选一系列的治疗方案，其功能十分强大，我们无力抗衡，因此只能另辟蹊径，那就是走得比它更远，做得比它更细。这就是我之前一直期望的网络和序列，我们期待的模式涌现是基于可运算的关系，即概率性的对象间关系和概率网络形成。我们打算从最基本的疾病诊断入手，通过对多特征的测量来对独特个体进行分类，理论上只要特征足够多，我们就可以以任意精度匹配到具有一定聚类意义的诊断（同一疾病可能有不同表现，但统计意义上大同小异）。我们可以在这个基础上继续进行聚类分析，不断往高维遍历。

线性的回归关系是如同最底层的无穷小量，可以在这个基础上遍历出所有可能的关系，当然我们需要一定的靶定才能使得其具体的路径形成维持在一定的范围内。

无穷分类，可以表示为1/0序列。除了这种直接的定义，还可以以一定的效应来定义，如是否表达。

算法的构建需要我们考虑特定性质的函数，逻辑回归作为一种分类算法能够以一定概率来区分不同的对象性质，这是如同马尔科夫序列对多可能整体的考虑。例如，如果对于给定的x，通过已经确定的参数计算得出 h θ (x)=0.7，则表示有 70%的几率 y 为正向类，相应地 y 为负向类的几率为 1-0.7=0.3。

边界函数是判断的标准。

良好的定义有助于我们开展各种运算。其中各种参数的变化就依赖于迭代的进行，最终能够找到特定的极值。

多类别的分类，一对余的思路，把独特的特征提取出来，其余的视为同一类；然后重复这个过程，知道分解为多个独特的类别。我们的理想是通过这些类别继续进行分类，在高维得到独特的分类。

正则化(regularization)的技术，保留所有的特征，但是减少参数的大小（magnitude），可以改善或者减少过度拟合问题。这可以使用一定的罚分策略来优化。

我们必须在欠拟合和过度拟合之间寻找一定的平衡，从而使得能够对数据有良好的预测能力，并且能够不断兼容新数据的加入。（理论上越多变量的次数可以形成越好的拟合，高次项导致了过拟合的产生，这是一种分形的性质）我们理想的马尔科夫模型是具有大概的分布，容许少量异常数据的出现，因为这是网络的选择性表达的结果，这也可以参考博弈论的鹰鸽博弈的不同分布的耦合。我们的边界是模糊的。

以上是线性的分类，接下来是非线性的多项式构造。如神经网络、支持向量机等等算法。本质上是对线性的计算的无限多次数的计算的依照优化，通过一定的特征识别来减少无用计算，把更多的资源用于具有更大概率涌现的路径形成。以网络的观点来解释，就是更加关注中心节点的运算，以点带面。（诚然，一般节点的大规模计算也是能够逼近中心节点的计算的结果，但相对来说，投入产出比太低。我们还是遵循马太效应的幂律分布）

也就是说，我们从变量的线性拟合跨越到对分布模式的寻找。对于可能的组合和爆炸性增长的参数计算（。假设我们有非常多的特征，例如大于 100 个变量，我们希望用这 100 个特征来构建一个非线性

的多项式模型，结果将是数量非常惊人的特征组合，即便我们只采用两两特征的组合（事实上需要更多的组合）,我们也会有接近 5000 个组合而成的特征。这对于一般的逻辑回归来说需要计算的特征太多了。），我们需要以高维的视角来考虑，这是如同微积分的维度运算：高维函数的简单加减计算对应于低维函数的复杂累加计算（傅里叶级数揭示的一对基底的选择性表达可以以任意精度逼近真实的函数，但问题是计算量太大了，即使是对计算机来说也是不可接受的，因此我们需要提取出高维量来计算，即分布）。

多项式的收敛，即特征组合的数目如同泰勒级数，只考虑一阶和二阶的情况，忽略高阶。

模式识别，选择一个宏观对象，提取出其对应的数学模型，然后选择其中的元素，根据一定的关系（函数定义）组成一定的新的关系，然后构造一定的算法来识别其特征，最终根据一定的判断标准来做出判断。假如我们只选用灰度图片，每个像素则只有一个值，我们可以选取图片上的两个不同位置上的两个像素，然后训练一个逻辑回归算法利用这两个像素的值来判断图片上是否是汽车：假使我们采用的都是 50x50 像素的小图片，并且我们将所有的像素视为特征，则会有2500 个特征，如果我们要进一步将两两特征组合构成一个多项式模型，则会有约 2500 2 /2 个（接近 3 百万个）特征。

神经网络篇：

模拟大脑的快速收敛机制，从而对数学空间的大规模的计算提取出高维的特征量，然后在这种高维的层次进行运算，从而做出快速的判断。如我们大脑对各种图片的识别机制。机器智能识别大规模的数据，并在底层进行运算，我们需要训练其模拟我们的思维方式，更准确的说是高维的思维方式（我对于计算机的底层计算往高维层次的遍历方式是不是如同人类的思考过程没有信心，当然我们已经证明对于哺乳动物这是一条可行的路，对于机器的智能进化有很大的参考价值）来减少不必要的计算。这我认为是基于已有的大规模底层运算的基础才能达成的，需要多层次耦合形成悖论式的高维结构，然后才能选择性表达为各种特定的路径。实际上，这也同样依赖于我们神经元的底层计算。我认为概率网络能够做出很好的说明。

神经网络的设想：通过对学习算法的提出来构建各种高维度的功能实现模块。这是一种底层计算的遍历到高维结构，期间我们需要经历大规模的试错和筛选，毕竟高维对低维的关系如同金字塔的不同位置。（层次相似性是我们做出这种转换的基础）而且神经网络的不同模块虽然是分化分布的结果，但其还具有恢复到初始状态的可能性，从而演化出原本不具有的功能，如把耳朵到听觉皮层的神经切断。在这种情况下，将其重新接到一个动物的大脑上，这样从眼睛到视神经的信号最终将传到听觉皮层。

多层次的信息传递和运算（信号的传递，各种投射纤维，神经元的连接），新式的图灵机？还是图灵机的一种应用？神经网络中，神经元的动态连接形成的高维复杂结构可以对应于世界上一切的可能性，然后在一定的规则指导下可以根据一定标准退火坍缩为一定的路径即学习，这是对幂律分布的应用。

这种大脑学习算法，是根据环境的选择性表达和如同自然选择的路径形成，我们可以对基本的神经元的连接来模拟这个过程。即我们将大脑假设为只存在神经元及其连接的模型，具体的神经元连接模式对应于一定的计算结构。然后再考虑神经胶质细胞等等作为环境的筛选机制和对计算的关键靶定。或许我们还应该考虑更底层的基因蛋白表达网络，这对于概率网络的构建提供更多的可靠性。因为这些网络都具有相似性，可以做一定的转换。神经元的新突触和树突形成是神经元的具体学习行为，但这是基于表达网络的概率性行为。这对应于神经网络模型是许多逻辑单元按照不同层级组织起来的网络，每一层的输出变量都是下一层的输入变量。

通感，各种感觉太过一定的信息转换来构建等价性，如BrainPort 的系统使得盲人能够用舌头学会“看”。

大脑的学习机制本质上是对新节点的插入的整合机制，因为大脑其实是处于激烈的动态变化，层次之间不断产生新的交互，如同免疫系统，从而对环境具有更大的适应度。我们就可以把适应度函数作为一种定义的函数。

信息可以表达为电流的流动，其具体的方向强度位置等等都携带一定的信息。

以神经元为学习单位，根据已有的数学模型作为具体运算模式，以线性的表达可以把其表达式的各种参数视为权重。对数据的处理就不一定遵照完全的大规模的线性计算，而是根据一定的规则如制定阈值来筛选（动作电位需要高于阈值才能传递），而且最后的计算也是根据一定的非线性处理规则来的。这个过程就如同马尔科夫序列，得出的结果都是概率性的分布，即我们认为的高维计算。就如同自然选择的进化中，在保持大方向不变的前提下不断引入新的变异，自然不需要数学式的精准。也就是说，矩阵的传递是其底层元素的线性元素经过非线性筛选的结果，这是一种高维运算。

权重的分配就是一种线性的回归分布，但权重的得出也是经过一系列的计算。因此神经网络本质上是对高维量的计算，其把原有的数据（原始特征）表示为更复杂的矩阵形式（多个层次，提取出更底层的层次，理论上分类的层次越多能够做出更好的描述），即根据特征值构建一定的矩阵。

具体的实现（需要良好的函数定义和取值）：神经网络中，单层神经元（无中间层）的计算可用来表示逻辑运算，比如逻辑 AND、逻辑或 OR（权重的分配可以用于构建不同的逻辑运算and、or、not）

然后在这种底层的逻辑结构构建更高维度的结果，这与我们的计算机的底层运算是一致的，可以不断往上遍历形成更加高维的结果，即更加复杂的函数。

代价函数（对误差的测量，可以不断迭代），通过定义来对某一标准进行可计算的比较，生物信息的打分矩阵思想应该就是源于此，在这里可以作为分类的标准。如

N维的数据的计算，矩阵的交互来表示其运算，但这种运算不完全是按照矩阵的乘法，而是在不同环节有选择地进行一些处理，如根据代价函数来排除一些数据之类的。

纯猜想：具体关系的形成，路径形成/坍缩退火：结合神经网络的正向传播方法和反向传播方法选择最大概率的路径，其分别的结果形成的基底的选择性表达对应于现实情况（博弈达成的均衡）。前者是矩阵的运算，后者是从最后的层次进行误差计算，一直倒推到前面的层次。我们知道代价函数是一种标准，这些方法就是为了达到标准所采取的策略。

把参数从矩阵展开成向量，降维分析，把复杂的对象降维到最基本的一维序列，然后在这个层次进行各种算法的优化分析。

检验，避免可能的局部最优化。参数的随机初始化，可以在进一步的迭代中不断包含直到收敛。

神经网络算法的可实现性，其网络结构是足够多的分层来逼近真实情况（层次的交互）。第一层的单元数即训练集的特征数量。最后一层的单元数是训练集的结果的类的数量。如果隐藏层数大于 1，确保每个隐藏层的单元个数相同，通常情况下隐藏层单元的个数越多越好。我们真正要决定的是隐藏层的层数和每个中间层的单元数。

如何借助这些成功的算法来构建我们需要的对医疗数据进行运算的算法？这是我一直在思考的。毋庸置疑，机器学习是我们不可或缺的选择。在我们达到最终的理想，完全的数据理解人类（真正意义的数据人）之前，我们应该首先开发可用的一些诊疗平台。幸运的是，在医疗方面我们已经有大规模的数据，只是我们需要以很好的组织形式来整理它们。目前的算法不仅仅是对运算的对象进行迭代，还有对自身参数进行迭代运算，这种耦合的运算模式很对我的胃口。以上这些算法本质上都是在做一个工作，分类，我觉得这是底层的各种，然后如何在这个基础上构建新的联系就是具体的应用。这种思路是目前来说，我的眼界所能够理解的最好的方式：选择一定的可运算的对象，构建一定的判断标准函数，建立一定的模型，迭代运算，不断优化。理论上能够做到的极限就是对世界上所有的基本都建立一定的模型，然后可以根据新病人的数据输入来快速匹配到其中精确的分类（我一直强调的序列，可以根据五行可能的关系映射），然后得出诊断和治疗方案。

任何高级功能的实现都需要我们选择一定的路径及特征量，这是一种降维的思路。然后不断改进，对更多特征的开发。特征的提取是一种不动点的寻找。

确定简单的算法，实现它，然后根据一定的评估如无此分析来决定哪些处理能够提高算法的表现，快速决定下一步采取的措施。

我一贯的思路是利用网络的节点之间的几何分布和组合，并在这些分布的节点之间寻找与现实情况的对应。这样我们可以能够模拟自然界的气体分子运动，而且用上各种分布，而在分布层次的计算在我看来是高维的计算。图论的很多知识也可以派上用场，已有的网络理论的幂律分布、小世界模型和六度分隔等等也可以对网络进行描述和计算。

于是具体的实现需要我们找到很好的对应，这种节点的运动过程可以理想化为坐标的移动，而节点之间的关系构建可以理解为运动的相关度，更高维度的结构形成可以对应于现实的各种抽象情况。然后与概率网络、马尔科夫序列构建对应关系。

（或许我不应该如此努力地尝试一定要用自己的方法来理解这些计算过程，这差不多是在反抗全世界；但我更害怕我走上了别人的路就再也没有反抗的余地了。然而现在我的思路也在不断接近现在成熟的思路，可能是一直在追求可实现，也不知道是成熟还是堕落。现在只能走着瞧了，我不知道在这个学习的过程中会不会失掉原有的梦想）

一般的优化思路：收集更大的样品量；尝试减少/增加特征的数量；增加多项式特征的方法，比如 x 1 的平方，x 2 的平方，x 1 x 2的乘积；减小或增大正则化参数 lambda 的值。

我们选择的网络模型的假设是网络的一系列成果，如幂律分布、小世界模型和六度分隔等等，我们需要良好的定义。

算法不仅仅要有可运算的对象，还要有可评估的标准，这是我们进一步改进的基础。然后是各种统计量，如方差、平均值等等。我们总希望能够达到一定的极值，如代价函数值最小或者导数为零等等。我们可以参考数学的夹逼定理来制定边界函数来评价其整体距离。我们需要根据具体的情况来选择特定的优化措施。

越高次数的多项式模型越能够适应我们的训练数据集，但这很难推广至一般情况，因此我们应该选择真正层次竞争博弈达成的均衡。这种均衡我们可以用收益函数的导数来表示。这种均衡就是马尔科夫序列，其选择性表达就是具体的真实情况（概率的表达是耦合情况发生的基础）。最终权衡还体现于查全率和查准率，作为偏斜类问题的评估度量值。保证查准率和查准率的相对平衡是很重要的。

就我认为，医生的经验累积过程是一个学习过程，我们可以通过算法来模拟最终行为。而且经验对应于数据量，不管算法如何（医生个人的天赋之类的），数据量的增加可以显著增强算法的性能。当然，这需要我们把握足够多的特征值，从而能够表达遍历整个空间，最终选择性坍缩为特定的路径。

支持向量机篇：

监督学习算法。以一定的简单函数（分段函数）来模拟边界以做出各种推断，并且可以根据各种评价函数来优化。努力用一个最大间距来分离样本。因此支持向量机有时被称为大间距分类器。

异常数据的排除，根据其相对比例/距离来做出这种判断，从而得到更好的分界函数。

对原有的特征进行组合---利用核函数来计算出新的特征（利用x的各个特征与我们预先选定的地标（landmarks）的近似程度来选取新的特征f 1 ,f 2 ,f 3），这是高维量的提取。

非监督学习算法，通过一定的数据分析来划分不同的类，可以基于计算机的运算能力提取出超越我们人类所能够理解的特征。就我看来，这是机器往智能方向发展的关键，我们不再指引道路，它们自己寻找道路。而且我一直偏好的网络思想似乎能够在非监督学习得到更好的体现，如聚类分析和降维分析等等。网络分析，足够细化的分类可以做出个体化的判断，如各种推荐算法；网络关系发现得出网络不同个体的关系，如寻找恐怖分子；重新分配资源，重新布局网络。由此优化数据中心，优化数据通信；

数据本身就存在一定的分布，我们之前只是对存在的对象进行解释并最后发现其分布模式，现在就是反过来了对这些分布进行定义从而做出解释，这种对标签信息的定义需要内部的构造，即进行定义分类。其中对这些分布的一个界定的算法，聚类算法，是基本的操作。可以映射为一定特征量的定义，当然，聚类远不只于此。

K-均值是一个迭代算法，通过计算每一个组的平均值，将该组所关联的中心点移动到平均值的位置，并且重复这种运算直到形成稳定状态。在这个过程中，迭代对应于一定的可计算量的变化操作，最终形成的收敛结构就是稳定状态。优化目标便是找出使得代价函数最小的对象。

降维：把复杂结构抽象为更基本的结果，如同无穷小量可以叠加，从而构建不同层次的关系。这种本征值提取可以对数据进行一定的压缩，在这个层次的运算可以逼近所有的结果。

减少运算的特征，减少冗余，这使得我们的计算更加具有可行性。

我们于是可以构建不同维度之间的相对关系，这种新产生的特征的意义可以由我们定义。我们可以根据的无限维空间可以准确对应于所有的情况。

主成分分析、奇异值分解，可以对新求出的“主元”向量的重要性进行排序，根据需要取前面最重要的部分，将后面的维数省去，可以达到降维从而简化

模型或是对数据进行压缩的效果。同时最大程度的保持了原有数据的信息。这本身就是一种分布。

模式识别（根据特征构建模型，然后与具体数据比对）：对特征变量的测量，只要数目足够多，我们就可以以比较高的精度来避免各种可能的误差，这我认为是可以把各种医疗可能产生的伤害降到最低，即所谓的异常检测问题。我们使用概率来分类，即特定数据在做出范围的概率是多少，高于一定阈值（与平均值的距离）可以认为属于同一类。

我们还可以在分布的层次进行模式识别。

μ是平均值，后者是方差。选择一个阈值来作为评定的边界，从而进行模式识别，即通过给出的数据集拟合参数，进行参数估计，得到参数μ和σ，然后检测新的样本，确定新样本是否是异常。

通过将一些相关的特征进行组合（如特征之间的比例），来获得一些新的更好的特征，这可以视为层次的耦合影响的性质。我在考虑这是不是可以以微分方程的形式来组合。

多元高斯分布能够构建更加精确的边界，可以通过构造新新特征的方法来捕捉这些相关性。

具体的应用，推荐系统，我认为就是对序列识别乃至序列匹配的一个很好的说明。这需要足够多的特征才能识别，这种就是我们的序列，根据过去的经验进行贝叶斯运算来迭代各种可能的概率。这种特征向量的组合就是序列。

数据的获取，医疗方面的各种描述性的指标，如面色发红，精神不振等等，我们需要考虑构建一定的特征向量，然后以其具体的比例来获取数据。我们可以考虑构建这样的医疗诊断平台，基于大规模的数据制定一定的分类，通过模拟现实中医生的诊断思维过程，构建一定的评价标准来不断迭代，以接近乃至超越医生。

网络层次的相关性，我们可以以比较定量的相关系数来测量。

分布是网络的一种自然分布，在这个基础有一定的关系形成，如各种线性关系、非线性关系，其中回归是一种趋势。当然，在这些基础上有不同层次的比例耦合形成的高维结构，即各种模式识别。我们可以以不同的自变量的组合形成的高维结构能够与特定的变量乃至于变量的组合之间构建一定的相关性。这是在期望这种不动点式的层次进行关系构建。

边际系数，自变量每增加(减)一个单位，因变量平均改变b个单位。各种检验的统计公式，残差方差等等；假设检验的α值的定义是一种微积分的极限定义，按 =0.05水准拒绝H0 ，接受H1；

最小二乘法就是一种算法分析，根据一定的估计值来做出合理的假设，最后找到一定的数据分布趋势的模式描述。其中残差最小就是这种算法的统计指标，可以视为一种函数的最优解求解。

以线性算法来逼近现实的非线性关系。

yudonglin506311858

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习笔记

以新的思想来指导计算机的底层运算来比较人类智能，构建局部自组织能力的可成长的体系，使得其遍历到足够高维的层次。这种概率的运算与之前微积分的发展历程是一致的，即通过贝叶斯计算吧概率进行迭代运算，对应于微积分的无穷小量的加和，从而构建更高维度的结构，我认为就是类似于无限维的网络。因此我们可以以网络的各种性质来指导具体的算法构建和计算机运算，从而最终达到我们需要的对大规模数据的识别并且挖掘出有意义的信息
复制链接

扫一扫