前言
笔者是在读本科生,尝试复刻数模国赛2017B题后,对国家一等奖论文做出总结,并说出自己的一些想法,以图提高自身建模水平。
原题
B题 “拍照赚钱”的任务定价
“拍照赚钱”是移动互联网下的一种自助式服务模式。用户下载APP,注册成为APP的会员,然后从APP上领取需要拍照的任务(比如上超市去检查某种商品的上架情况),赚取APP对任务所标定的酬金。这种基于移动互联网的自助式劳务众包平台,为企业提供各种商业检查和信息搜集,相比传统的市场调查方式可以大大节省调查成本,而且有效地保证了调查数据真实性,缩短了调查的周期。因此APP成为该平台运行的核心,而APP中的任务定价又是其核心要素。如果定价不合理,有的任务就会无人问津,而导致商品检查的失败。
附件一是一个已结束项目的任务数据,包含了每个任务的位置、定价和完成情况(“1”表示完成,“0”表示未完成);附件二是会员信息数据,包含了会员的位置、信誉值、参考其信誉给出的任务开始预订时间和预订限额,原则上会员信誉越高,越优先开始挑选任务,其配额也就越大(任务分配时实际上是根据预订限额所占比例进行配发);附件三是一个新的检查项目任务数据,只有任务的位置信息。请完成下面的问题:
1.研究附件一中项目的任务定价规律,分析任务未完成的原因。
2.为附件一中的项目设计新的任务定价方案,并和原方案进行比较。
3.实际情况下,多个任务可能因为位置比较集中,导致用户会争相选择,一种考虑是将这些任务联合在一起打包发布。在这种考虑下,如何修改前面的定价模型,对最终的任务完成情况又有什么影响?
4.对附件三中的新项目给出你的任务定价方案,并评价该方案的实施效果。
附件一:已结束项目任务数据
附件二:会员信息数据
附件三:新项目任务数据
题目二
(1)博弈论(B104)
原文符号运用混乱,很多未说明清楚,故请跳过这里。
(1)附件二里面的信誉值反映了会员的活跃度,因此在第一题的基础上额外增加一个指标。记
z
4
z_{4}
z4 为区域内会员信誉分数密度。
z
4
=
1
n
∑
i
=
1
n
G
i
z_{4}=\frac{1}{n} \sum_{i=1}^{n} G_{i}
z4=n1i=1∑nGi
n
\mathrm{n}
n 为圆域内会员总数,
G
i
G_{i}
Gi 为第
i
\mathrm{i}
i 名会员的信誉分数。
基于第一问中的模型, 加入新的影响变量得到如下表达式:
w
=
C
1
z
1
+
C
2
z
2
+
C
3
z
3
+
C
4
z
4
+
65
w=C_{1} z_{1}+C_{2} z_{2}+C_{3} z_{3}+C_{4} z_{4}+65
w=C1z1+C2z2+C3z3+C4z4+65
即有
w
=
6.3248
z
1
−
0.1395
z
2
+
2.3947
z
3
+
1.875
z
4
+
65
w=6.3248 z_{1}-0.1395 z_{2}+2.3947 z_{3}+1.875 z_{4}+65
w=6.3248z1−0.1395z2+2.3947z3+1.875z4+65
(2)根据上述公式计算得到的为期望价格 V H V_{H} VH,会员可能接受的最低价格为 V L V_{L} VL。为了实现利润和完成率最大化,实际定价应该在两者之间。平台给出的定价为 M L ( V L ) M_{L}\left(V_{L}\right) ML(VL); 能使顾客接受的最低定价为 M H ( V H ) M_{H}\left(V_{H}\right) MH(VH)
(3)该交易成交则对平台和会员的效用分别为 V H − M L ( V L ) V_{H}-M_{L}\left(V_{L}\right) VH−ML(VL) 及 M L ( V L ) − V L M_{L}\left(V_{L}\right)-V_{L} ML(VL)−VL
(2)数据规范化+非线性规划+二维多阶段轮盘赌(B353)
后半部分过于复杂,没看明白……
(1)
D
i
j
D_{i j}
Dij 为在时空可抵范围内会员
i
i
i 与任务
j
j
j 的距离,
D
i
j
′
=
D
i
j
−
D
i
j
‾
σ
i
j
,
i
∈
G
j
,
j
∈
A
D_{i j}^{\prime}=\frac{D_{i j}-\overline{D_{i j}}}{\sigma_{i j}}, \quad i \in G_{j}, j \in A
Dij′=σijDij−Dij,i∈Gj,j∈A
(2)对信誉进行规范化处理,
q
i
B
q_{i}^{B}
qiB 为会员
i
i
i 的信誉值, 依据在线支付信誉评价标准
(
3
]
^{(3]}
(3], 将附件二中各会员按其信誉度值划分为高信誉、中信誉和低信誉三个等级,得图
3.6
3.6
3.6 所示信誉趋势, 并量化得会员信誉分段函数
Q
B
Q^{B}
QB :
Q
i
B
=
{
1.1
,
q
i
B
>
19.9231
1
,
q
i
B
=
19.9231
0.9
,
q
i
B
<
19.9231
Q_{i}^{B}= \begin{cases}1.1, & q_{i}^{B}>19.9231 \\ 1, & q_{i}^{B}=19.9231 \\ 0.9, & q_{i}^{B}<19.9231\end{cases}
QiB=⎩⎪⎨⎪⎧1.1,1,0.9,qiB>19.9231qiB=19.9231qiB<19.9231
(3)由此,构建包含任务会员时间距离、空间备选会员集和会员信誉度的时空效率定价模型:
P
p
j
=
1
2
K
p
P
o
j
(
H
1
∑
m
=
1
m
=
−
α
m
ω
m
D
m
j
′
Q
m
B
+
H
2
∑
n
=
1
n
=
∣
σ
p
′
∣
D
n
j
′
Q
n
B
)
P_{p j}=\frac{1}{2} K_{p} P o_{j}\left(H_{1} \sum_{m=1}^{m=-\alpha_{m}^{\omega m}} \frac{D_{m j}^{\prime}}{Q_{m}^{B}}+H_{2} \sum_{n=1}^{n=\left|\sigma_{p}^{\prime}\right|} \frac{D_{n j}^{\prime}}{Q_{n}^{B}}\right)
Ppj=21KpPoj⎝⎜⎛H1m=1∑m=−αmωmQmBDmj′+H2n=1∑n=∣σp′∣QnBDnj′⎠⎟⎞
(4)式中,
p
p
p 为聚类中心编号,
p
=
1
,
2
,
3
…
,
∣
C
∣
:
j
p=1,2,3 \ldots,|C|: j
p=1,2,3…,∣C∣:j 为任务编号,
j
=
1
,
2
,
3
…
,
∣
B
∣
:
H
1
j=1,2,3 \ldots,|B| : H_{1}
j=1,2,3…,∣B∣ :H1 和
H
2
H_{2}
H2 分别
为时空高效范围
r
1
(
j
)
r_{1}(j)
r1(j) 及时空可抵范围
r
2
(
j
)
r_{2}(j)
r2(j) 的会员信息系数值, 分别取值
1.1
1.1
1.1 和
0.9
0.9
0.9 。执行时空效
率定价时, 任务
j
j
j 先匹配
r
1
(
j
)
r_{1}(j)
r1(j) 范围内的会员, 再匹配
r
1
(
j
)
r_{1}(j)
r1(j) 和
r
2
(
j
)
r_{2}(j)
r2(j) 范围间的会员, 故
H
1
>
H
2
H_{1}>H_{2}
H1>H2 。
根据问题一任务末完成情况归因可知, 经济发展水平较高的地区(如广州、深圳)任务末完成
的概率远大于经济发展水平较低的地区(如东莞)。因此式
(
3.10
)
(3.10)
(3.10) 中设置经济发展系数
K
p
K_{p}
Kp 量化宏观
经济因素。由此,可以通过调节定价
K
p
K_{p}
Kp 提高经济发达地区任务基准定价, 刺激当地会员的积极性,
促使其更好地完成任务。据
《
2016
《 2016
《2016 年广东省各市
G
D
P
\mathrm{GDP}
GDP 与人均
G
D
P
\mathrm{GDP}
GDP 报告》赋予表
4.1
4.1
4.1 所示系数值。
(5)基于时空效率定价模型重新定价后, 参考竞争成功选择问题(WBDP)相关规律 , 构建以平台任务总定价提升比例最小和任务成功执行数最大为目标的会员任务匹配规划模型。(模型略)
(6)多阶段轮盘赌准则……没看懂……
(3)位势函数法【1】(B154)
任务被完成的可能性取决于任务吸引力和地区活跃度。
(1)建立吸引力函数、会员活跃度函数、坐标活跃度函数。
c
i
=
f
(
s
,
d
i
)
=
m
1
e
−
m
2
d
i
2
s
c_{i}=f\left(s, d_{i}\right)=m_{1} e^{-\frac{m_{2} d_{i}^{2}}{s}}
ci=f(s,di)=m1e−sm2di2
k
=
ln
b
\mathrm{k}=\ln b
k=lnb
由此我们可以得到一个坐标的活跃度为:
a
=
g
(
x
,
y
)
=
∑
i
=
1
n
k
i
exp
{
m
3
[
(
x
−
x
i
)
2
−
(
y
−
y
i
)
2
]
}
a=g(x, y)=\sum_{i=1}^{n} k_{i} \exp \left\{m_{3}\left[\left(x-x_{i}\right)^{2}-\left(y-y_{i}\right)^{2}\right]\right\}
a=g(x,y)=i=1∑nkiexp{m3[(x−xi)2−(y−yi)2]}
其中(
x
,
y
\mathrm{x}, \mathrm{y}
x,y ) 为地区的经纬度坐标;
(
x
i
,
y
i
)
\left(x_{i}, y_{i}\right)
(xi,yi) 为第
i
\mathrm{i}
i 个会员的经纬度坐标。
考虑到会员的分布很集中,全部考虑的话模型过于复杂且真实情况下存在偶然性, 我们对模型进行简化, 将单位区间内密集的会员进行合并, 产生的新的经度
x
i
′
x_{i}{ }^{\prime}
xi′, 纬度
y
i
′
y_{i}{ }^{\prime}
yi′ 以及会员活跃度
k
i
k_{i}
ki '定义为:
x
i
′
=
∑
i
=
1
j
k
i
x
i
∑
i
=
1
j
k
i
y
i
′
=
∑
i
=
1
j
k
i
y
i
∑
i
=
1
j
k
i
\begin{aligned} x_{i}{ }^{\prime} &=\frac{\sum_{i=1}^{j} k_{i} x_{i}}{\sum_{i=1}^{j} k_{i}} \\ y_{i}{ }^{\prime} &=\frac{\sum_{i=1}^{j} k_{i} y_{i}}{\sum_{i=1}^{j} k_{i}} \end{aligned}
xi′yi′=∑i=1jki∑i=1jkixi=∑i=1jki∑i=1jkiyi
所以我们可以得到改变后的地区的活跃度为:
a
=
g
(
x
,
y
)
=
∑
i
=
1
n
k
i
′
exp
{
m
3
[
(
x
−
x
i
′
)
2
−
(
y
−
y
i
′
)
2
]
}
a=g(x, y)=\sum_{i=1}^{n} k_{i}^{\prime} \exp \left\{m_{3}\left[\left(x-x_{i}^{\prime}\right)^{2}-\left(y-y_{i}^{\prime}\right)^{2}\right]\right\}
a=g(x,y)=i=1∑nki′exp{m3[(x−xi′)2−(y−yi′)2]}
(2)得到可能性 p i = ∬ c i a i d x d y p_{i}=\iint c_{i} a_{i} d x d y pi=∬ciaidxdy
(3)经过一系列复杂的数学计算,解得p,可知公司期望收益为: E ( R i ) = P ( L − s ) + ( 1 − p ) ⋅ 0 = p ( L − s ) E\left(R_{i}\right)=P(L-s)+(1-p) \cdot 0=p(L-s) E(Ri)=P(L−s)+(1−p)⋅0=p(L−s)
(4)自定函数法(B315)
基础模型:
(1)借用库仑定律
F
i
j
≜
k
i
j
p
i
φ
(
m
j
)
r
i
j
α
F_{i j} \triangleq \frac{k_{i j} p_{i} \varphi\left(m_{j}\right)}{r_{i j}^{\alpha}}
Fij≜rijαkijpiφ(mj)
其中
α
\alpha
α 为参数,
p
j
p_{j}
pj 为任务点
Y
i
Y_{i}
Yi 的价格,
r
i
j
r_{i j}
rij 为任务点
Y
i
Y_{i}
Yi 与会员
X
j
X_{j}
Xj 之间的距离,
k
i
j
k_{i j}
kij 即为
刚刚定义的困难因子, 对于不同的地区,
k
i
,
j
k_{i, j}
ki,j 可以不是常数, 其他影响因素都可以吸收
到
k
i
j
k_{i j}
kij 中。
(2)建立任务和会员的匹配算法。
拓展模型:
(1)沿用并改进模型
F
i
j
=
k
j
∑
k
=
1
N
j
p
i
k
∣
l
j
∣
,
F_{i j}=k_{j} \frac{\sum_{k=1}^{N_{j}} p_{i_{k}}}{\left|l_{j}\right|},
Fij=kj∣lj∣∑k=1Njpik,
其中
1
j
1_{j}
1j 表示从
X
j
X_{j}
Xj 会员点出发的一条路径, 经过
N
j
N_{j}
Nj 个任务点
i
1
,
i
2
,
…
,
i
N
j
i_{1}, i_{2}, \ldots, i_{N_{j}}
i1,i2,…,iNj 。 设
i
=
(
i
1
,
i
2
,
…
,
i
N
j
)
i=\left(i_{1}, i_{2}, \ldots, i_{N_{j}}\right)
i=(i1,i2,…,iNj). 此时, 单位长度会员盃利的期望即为
∑
k
=
1
N
j
p
i
k
∣
l
j
∣
\frac{\sum_{k=1}^{N_{j}} p_{i_{k}}}{\left|l_{j}\right|}
∣lj∣∑k=1Njpik, 其中
∣
1
j
∣
\left|1_{j}\right|
∣1j∣ 表示路径1
的长度,
k
i
k_{i}
ki 则为此路径的困难程度。
(2)任务和会员的匹配算法的详细步骤。
(3)模型评价。自设定:价格为Q时的任务点所有会员完成率、会员完成概率、会员总盈利、平台总收益。
(4)并未给出实际数据带入实验,只是说明了想要验证现在模型比原模型好,要怎么做的步骤。
(5)自定函数法+多目标优化模型(B477)
实现定价总额最小,完成率最高的多目标优化模型。
(1)解析因素,分别建立粗略目标函数。
(2)确定自变量范围,对各个指标进行分析,其对中间变量和目标函数有哪些影响。
(3)在上述分析的基础上建立约束条件。
(4)得到多目标优化模型。
max
f
(
S
)
=
∑
1
n
S
i
n
min
f
(
P
)
=
∑
1
n
P
i
s.t.
{
∑
1
n
P
i
≤
M
(
∑
1
n
S
i
⋅
α
i
⋅
β
i
)
/
n
≥
N
P
F
i
≤
P
i
≤
P
S
i
i
=
1
…
n
s.t.
{
∑
1
n
P
i
≤
M
P
F
i
≤
P
i
≤
P
S
i
i
=
1
…
n
\begin{aligned} &\max f(S)=\frac{\sum_{1}^{n} S_{i}}{n} \quad \min f(P)=\sum_{1}^{n} P_{i} \\ &\text { s.t. }\left\{\begin{array}{l} \sum_{1}^{n} P_{i} \leq M & \left(\sum_{1}^{n} S_{i} \cdot \alpha_{i} \cdot \beta_{i}\right) / n \geq N \\ P_{F_{i}} \leq P_{i} \leq P_{S_{i}} \\ i=1 \ldots n \end{array}\right. & \text { s.t. }\left\{\begin{array}{l} \sum_{1}^{n} P_{i} \leq M \\ P_{F_{i}} \leq P_{i} \leq P_{S_{i}} \\ i=1 \ldots n \end{array}\right. \end{aligned}
maxf(S)=n∑1nSiminf(P)=1∑nPi s.t. ⎩⎨⎧∑1nPi≤MPFi≤Pi≤PSii=1…n(∑1nSi⋅αi⋅βi)/n≥N s.t. ⎩⎨⎧∑1nPi≤MPFi≤Pi≤PSii=1…n
其中,
S
i
S_{i}
Si 为优化后第
i
i
i 个任务的成功率,
P
i
P_{i}
Pi 为优化后第
i
i
i 个任务的定价,
P
F
P_{F}
PF 为第
i
i
i 个任务对应的失败任务定价,
P
S
P_{S}
PS 为第
i
i
i 个任务对应的成功任务定价。 最优函数最优解求解办法 我们引入最大期望利润
W
W
W, 设每一个任务商家提供给系统的价格为
Q
i
Q_{i}
Qi, 系 统定价为
Q
i
′
Q_{i}^{\prime}
Qi′, 该任务执行率为
R
i
R_{i}
Ri, 则最大系统期望利润可以近似用如下公式估 计:
max
W
=
∑
1
n
(
Q
i
−
Q
i
′
)
⋅
R
i
\max W=\sum_{1}^{n}\left(Q_{i}-Q_{i}^{\prime}\right) \cdot R_{i}
maxW=1∑n(Qi−Qi′)⋅Ri
也即能求出期望利润最大时的定价总额与平均成功率且是唯一的两个值。
(5)层次分析法确定部分权重。
(6)自变量建立一次方、平方、三次方项进行多元拟合回归确定部分权重。
(7)改善后模型与原模型的比对。
(6)(B264)
在第一问数据规范化模型的基础上增加了新的变量(好简单的思路……)
(1)
(2)仍然是根据各个指标(如用户满意度、衡量任务i被完成概率)进行自定函数。
总结
规划问题思路
B477的很不错!下面将截取一部分来说明思路。
·B477主要考虑的是任务和任务的关系,以及任务和用户的关系,没有考虑用户内部竞争。
一、建立目标函数(此处是亮点)
(1)先写出来目标函数有哪些
最大执行率 最小定价总额
(2)确定对目标函数(定价)的第一层影响因子
(3)确定目标函数(定价)的第二层影响因子
(4)确定(定价)第二层的权重和函数
(5)确定(定价)第一层的权重和函数
(6)确定对目标函数(完成率)的第一层影响因子
(7)(完成率)第一层的权重和函数
二、自变量范围
(1)明确自变量和因变量的关系(执行率和定价为因变量,其余为自变量)
(2)进行比较说明
三、约束条件
(1)因变量约束
(2)将因变量根据“一”的分析,转为自变量
四、权重确定(此处是亮点)
(1)经验确定
此系数对应“一-(7)”
(2)层次分析法确定
此系数对应“一-(4)”
(3)回归拟合确定
其中x为用户和任务的关系,y为任务和任务的关系,z为定价
自定函数法
根据指标和目标的特定自己设定函数,咱们在2019E中也使用过该方法。2017B中国一论文用到的很多,如确定吸引力(多数用于中间变量):
(1)B315
(2)B154
(3)注意!
自定函数也要有所依据,如(1)中引用库仑定律,是因为定价的确和与市中心距离成负相关,所以可以用1/r²,也有任务和用户一些因子是正相关的,可以看做电荷量。
数据规范化
拟合效果差怎么办?数据结果不理想怎么办?问题太复杂怎么办~数据规范化来拯救你!
极具主观性,但能引用文献当然更好,将范围值转换为定值,优点在于可以减小现实中以外情况的干扰(比如会员出车祸没完成,尽管几率很小,但体现在数据上就是异常点或者容易造成误差),应用例子如:
(1)B246第一二问
(2)B104
只给方法不带数据法
投机取巧或者时间不允许的下策,如B315,也没验证自己的模型到底可不可行,建议自己去读一读他的第二问,因为他的思路没法依靠已有数据验证,不好处理数据,所以他只给了个验证思路(说的全是废话……),当然第三问他也是这么做的,第四问倒是给了个简短的结果……