day1
组队分工——建模人
其工作主要是建立模型
数学知识的应用能力:
①概率与数理统计
②运筹与线性规划
③微分方程还有与计算机知识相交叉的知识:计算机模拟等等
建模步骤
模型准备——>模型假设——>模型建立——>模型求解——>模型分析——>模型检验(检验假设是否正确)——>模型应用
建模过程
数据分析——>关联与分析——>分类与辨别——>评价与决策——>预测与预报——>优化与控制
数据处理问题
①插值拟合
主要用于对数据的补全和基本的趋势分析
②小波分析,聚类分析(高斯混合聚类,K-均值聚类等)
主要用于诊断数据异常值并进行剔除
③主成分分析、线性判别分析、局部保留投影等
主要用于多维数据的降维处理,减少数据冗余
关联与因果
①灰色关联分析方法(样本点的个数较少)
②Superman或kendall等级相关分析
③Person相关(样本点的个数比较多)
④Copula相关(比较难,金融数学,概率密度)
⑤典型相关分析(因变量Y1234,自变量组X1234,各自变量组相关性比较强,问哪一个因变量与哪一个自变量关系比较紧密?)
分类与辨别
①距离聚类(系统聚类)常用
②关联性聚类(常用)
③层次聚类
④密度聚类
⑤其他聚类
⑥贝叶斯判别(统计判别方法)
⑦费舍尔判别(训练的样本比较少)
⑧模糊识别(分好类的数据点比较少)
评价与决策
①模糊综合评判:评价一个对象优、良、中、差等层次评价,评价一个学校等,不能排序
②主成分分析:评价多个对象的水平并排序,指标间关联性很强
③层次分析法:做决策,通过指标,综合考虑做决定
④数据包络(DEA)分析法:优化问题,对各省发展状况进行评判
⑤秩和比综合评价法:评价各个对象并排序,指标间关联性不强
⑥神经网络评价:适用于多指标非线性关系明确的评价
⑦优劣解距离法(TOPSIS法)
⑧投影寻踪综合评价法:糅合多种算法,比如遗传算法、最优化理论
⑨方差分析、协方差分析等
方差分析:看几类数据之间有无差异,差异性影响,例如:元素对麦子的产量有无影响,差异量的多少;
协方差分析:有几个因素,我们只考虑一个因素对问题的影响,忽略其他因素,但注意初始数据的量纲以及初始情况。
预测与预报
主要有五种:
小样本内部预测
大样本的内部预测
小样本的未来预测
大样本的随机因素或周期特征的未来预测
大样本的未来预测
①灰色预测模型(必须掌握)
满足两个条件可用:
a数据样本点个数少,6-15个
b数据呈现指数或曲线的形式
②微分方程预测(备用)
无法直接找到原始数据之间的关系,但可以找到原始数据变化速度之间的关系,通过公式推导转化为原始数据之间的关系。
③回归分析预测(必须掌握)
求一个因变量与若干自变量之间的关系,若自变量变化之后,求因变量如何变化
样本点的个数有要求:
a自变量之间协方差比较小,最好趋于零,自变量之间的关系小
b样本点的个数n>3k+1,k为自变量的个数
c因变量要符合正态分布
优化与控制
①线性规划、整数规划、0-1规划(有约束,确定的目标)
②非线性规划与智能优化算法
③多目标规划和目标规划(柔性约束,目标含糊,超过)
④动态规划
⑤图论、网格优化(多因素交错复杂)
⑥排队论与计算机仿真
⑦模糊规划(范围约束)
⑧灰色规划(难)
day2
线性规划模型(LP)
线性规划问题的三个重要因素
决策变量
目标函数
约束条件
MATLAB软件求解
命令为:linprog,解决的线性规划的标准格式为:
其中,A,b,c,x,Aeq,beq,VLB,VUB等均表示矩阵,特别b,c,x,beq,VLB,VUB为列矩阵。
命令linprog的基本调用格式:
如果没有等式约束,就在相应位置上输入空数组[],不等式约束和上下界也类似,最后的输入项若没有,则可以省略
还可以增加输出
day3
插值与拟合
数据拟合在很多赛题中有应用,与图形处理有关的问题很多与插值和拟合有关系,例如98年美国赛A题,生物组织切片的三维插值处理,94年A题逢山开路,山体海拔高度的插值计算,2002年吵得火热的“非典”问题也要用到数据拟合算法,观察数据的走向进行处理,2005年的雨量预报的评价的插值计算。2001年的公交车调度拟合问题,2003年的饮酒驾车拟合问题。
区别:
插值问题不一定得到近似函数的表达形式,仅通过插值方法找到未知点对应的值。数据拟合要求得到一个具体的近似函数的表达式。
数据插值
1、interp1():一维插值函数
调用格式:Y1=interp1(X,Y,x1,method)
其中,X、Y是两个等长的已知向量,分别表示采样点和采样值。x1是一个向量或标量,表示要插值的点。 method参数用于指定插值的计算方法:
(1)linear:线性插值(默认方法)。将与插值点靠近的两个数据点用直线连接,然后在直线上选取对应插值点数据。
(2)nearest:最近点插值。选择最近样本点插值。
(3)pchip:分段3次埃尔米特插值。采用分段三次多项式,除满足插值条件,还需满足在若干节点处相邻段插值函数的一阶导数相等,使得曲线光滑的同时,还具有保形性。
(4)spline:3次样条插值。每个分段内构造一个三次多项式,使其插值函数除满足插值条件外,还要求在各节点处具有连续的一阶和二阶导数。
2、interp2():二维插值函数
调用格式:Z1=interp2(X,Y,Z,x1,Y1,method)
其中,X、Y是两个已知向量,表示两个参数的采样点,Z是采样点对应的函数值。x1、Y1是两个向量或标量,表示要插值的点。
曲线拟合
曲线拟合同数据插值类似,也是函数逼近的方法:构造函数g(x)去逼近未知函数f(x),使得误差
1、最小二乘法:最小二乘法(又称最小平方法)是一种数学优化技术。它通过最小化误差的平方和来寻找数据的最佳函数匹配。
设p(x)是一个多项式函数
且
的值最小,则p(x)为原函数y=f(x)的逼近函数。
2、MATLAB中的多项式拟合函数为polyfit(),其功能为求得最小二乘拟合多项式系数,其调用格式为:
(1)P=polyfit(X,Y,m)
(2)[P,S]=polyfit(X,Y,m)
(3)[P,S,mu]=polyfit(X,Y,m):根据样本数据X和Y,产生一个m次多项式P及其在采样点误差数据S,mu是一个二元向量,mu(1)是mean(X),而mu(2)是 std(X)。
3、注意事项
(1)要对问题的背景进行详细的分析。
(2)采样点并非越多越好,适当的时候,可以减少采样点,分段进行拟合。
day4
非线性规划问题
至少有一个变量不是一次方
其他具体类型,例如二次规划、罚函数法、梯度法等也属于非线性规划内容。
典型赛题
题目中提到"怎样安排/分配"“尽量多(少)”“最多(少)”“利润最大”"最合理"等词;但变量非一次方
投资规划:
资产配置、收益率、损失率、组合投资、总收益率最大\最佳投资方案
·总资金为M,有n种资产可以配置,平均收益率…,风险损失率…,手续费…,设计组合投资方案是的收益尽可能大,总体风险尽可能小。
角度调整:
飞行管理避免相撞;影院最佳视角
·飞机位置,速度,进入区域后判定是否相撞,飞机飞行方向角调整的幅度尽量小
·电影院视角、仰角影响观影体验,什么位置观影最佳
·设计三角函数,为非线性
day5
灰色预测模型及其应用
灰色系统理论是研究解决灰色系统分析、建模、预测、决策和控制的理论。灰色预测是对灰色系统所做的预测。目前常用的一些预测方法(如回归分析等),需要较大的样本。若样本较小,常造成较大误差,使预测目标失效。灰色预测模型所需建模信息少,运算方便,建模精度高,在各种预测领域都有着广泛的应用,是处理小样本预测问题的有效工具
特点
①用灰色数学处理不确定量,使之量化
②充分利用已知信息寻求系统的运动规律
③灰色系统理论能处理贫信息系统
分类
①数列预测
即用观察到的反映预测对象特征的时间序列来构造灰色预测模型,预测未来某一时刻的特征量,或达到某一特征量的时间。
②灾变与异常值预测
即通过灰色模型预测异常值出现的时刻,预测异常值什么时候出现在特定时区内。
③季节灾变与异常值预测
即通过灰色模型预测灾变值发生在一年内某个特定的时区或季节的灾变预测。
④拓扑预测
将原始数据做曲线,在曲线上按照定值寻找该定值发生的所有时点,并以该定值为框架构成时点数列,然后建立模型预测该定值所发生的时点。
⑤系统预测
通过对系统行为特征指标建立一组相互关联的灰色预测模型,预测系统中众多变量间的相互协调关系的变化。
GM(1,1):一阶一元灰色模型
day6
神经网络基本原理及编程实现
神经网络模型
根据网络中神经元的互联方式不同,网络模型分为:
前馈神经网络
只在训练过程会有反馈信号,而在分类过程中数据只能向前传送,直到到达输出层,层间没有向后的反馈信号。
反馈神经网络
从输出到输入具有反馈连接的神经网络,其结构比前馈网络要复杂得多
自组织网络
通过自动寻找样本中的内在规律和本质属性,自组织、自适应地改变网络参数与结构。
工作状态
神经网络的工作状态分为学习和工作两种状态
学习
利用学习算法来调整神经元间的连接权重,使得网络输出更符合实际
工作
神经元间的连接权值不变,可以作为分类器或者预测数据使用
学习方式
学习方式分为有导师学习与无导师学习
有导师学习
将一组训练集送入网络,根据网络的实际输出与期望输出间的差别来调整连接权值
例如BP算法
无导师学习
抽取样本集合中蕴含的统计特性,并以神经元之间的连接权的形式存于网络中
例如Hebb学习率
神经网络的应用
图像处理
对图像进行边缘监测、图像分割、图像压缩和图像恢复
信号处理
能分别对通讯、语音、心电和脑电信号进行处理分类;可用于海底声纳信号的检测与分类,在反潜、扫雷等方面得到应用
模式识别
已成功应用于手写字符、汽车牌照、指纹和声音识别,还可用于目标的自动识别和定位、机器人传感器的图像识别以及地震信号的鉴别等。
机器人控制
对机器人眼手系统位置进行协调控制,用于机械手的故障诊断及排除、智能自适应移动机器人的导航
卫生保健、医疗
比如通过训练自主组合的多层感知器可以区分正常心跳和非正常心跳、基于BP网络的波形分类和特征提取在计算机临床诊断中的应用。
焊接领域
国内外在参数选择、质量检测、质量预测和实时控制方面都有研究,部分成果已得到应用
经济
能对商品价格、股票价格和企业的可信度等进行短期预测
另外在数据挖掘、电力系统、交通、军事、矿业、农业和气象等方面亦有应用
训练函数
BP网络构建
day7
蒙特卡罗方法
蒙特卡罗方法又称统计模拟法、随机抽样技术,是一种随机模拟方法,以概率和统计理论方法为基础的一种计算方法,是使用随机数(或伪随机数)来解决很多计算问题的方法。将所求解的问题同一定的概率模型相联系,用电子计算机实现统计模拟或抽样,以获得问题的近似解。
基本思想
当所求问题的解是某个事件的概率,或者是某个随机变量的数学期望,或者是与概率,数学期望有关的量时,通过某种试验的方法,得出该事件发生的概率,或者该随机变量若干个具体观察值的算术平均值,通过它得到问题的解。
当随机变量的取值仅为0和1的时候,它的数学期望就是某个事件的概率。或者说,某种事件的概率也是随机变量的数学期望。
特点
优点
1、能够比较逼真地描述具有随即性质的事物的特点以及物理实验过程
2、受几何条件限制小
3、收敛速度与问题的维数无关
4、具有同时计算多个方案与多个未知量的能力
5、误差容易确定
6、程序结构简单,易于实现
缺点
1、收敛速度慢
2、误差具有概率性
3、在粒子输运问题中,计算结果与系统大小有关
所以在使用蒙特卡罗方法的时候,要“扬长避短”。只对问题中难以用解析(或者数值)方法处理的部分,使用蒙特卡罗方法计算,对那些能用解析(或数值)方法处理的部分,应当尽量使用解析方法。
产生随机数的方法
随机数表方法
物理方法
蒙特卡罗方法计算积分
day8
在人类社会生活的各个领域以及日常生活中,我们经常遇到一些决策问题,例如购物。
买钢笔,一般要根据质量、颜色、实用性、价格、外形等方面的因素选择某一只钢笔。
买饭,则要 根据色、香、味、价格等方面的因素选择某种饭菜。
过去人们处理这些问题往往是凭借经验,靠主观定性的去分析,随意性 较大而且缺少应有的科学性,因而常常造成重大的失误。
层次分析法是 将定性问题定量化处理的一种有效手段。
层次分析法的基本步骤
在 层次划分及因素选取时,我们要注意三点:
①上层对下层有支配作用
②同一层因素不存在支配关系(相互独立)
③每层因素一般不要超过9个
层次分析法的不足
①它只能从现有的方案中选择出较优的一个,并不能提供出一个新的或者是更好的方案来。
②该方法中的比较,判断以及结果都是比较粗的,并不适合精确的计算。
③建立层次结构以及成对比较矩阵,人的主观因素起着很大作用,这是一个无法克服的缺点。(但是我们可以让多个专家来做出判断,或者 以问卷调查的方式得出比较阵)