第二节课问答系统结构-CSDN博客

本文链接：https://blog.csdn.net/qq_45679878/article/details/132656197

第二节课问答系统结构

基于搜索的问答系统

需要解决的问题

基于语料库：1. 文本表示 2. 相似度

基于知识图谱：1. 实体抽取 2. 关系抽取

强化学习

不需要大量的训练数据，注重交互和试错

模型：每移动一步，智能体接收对环境的观测 $S_t$ ，接收所获得的回报 $R_t$ ，执行应采取的行动 $A_t$ ，环境接收智能体的行动 $A_t$ ，发送智能体的观测 $S_{t+1}$ ，发送智能体的回报 $R_{t+1}$

预测问题：评价给定的策略

控制问题：找出最优策略（主要的）

马尔科夫回报过程：对状态进行量化，由四元组 $(S,P,r,\gamma)$ 描述， $S$ 为状态空间， $P$ 为状态转移矩阵， $r$ 为状态期望回报， $\gamma\in[0,1]$ 是折现因子
$r_s=E(R_{t+1}|S_t=s)=\sum_{r\in R}rP(r|S_t=s)\\ G_t=R_{t+1}+\gamma R_{t+2}+\gamma^2 R_{t+3}+\cdots$
状态价值函数
$V(s)=E(G_t|S_t=s)=E(R_{t+1}+\gamma V(S_{t+1})|S_t=s)=r_s+\gamma\sum_{s'\in S}P_{ss'}V(s')$
贝尔曼期望方程
$V(s)=r_s+\gamma\sum_{s'\in S}P_{ss'}V(s')\\ V=r+\gamma PV,V=(I-\gamma P)^{-1}r$
小规模问题：直接解方程求解

大规模问题：用迭代方法求解

马尔科夫决策过程：对状态下行动指定回报进行量化，由五元组 $(S,A,P,R,\gamma)$ 描述， $S$ 为状态空间， $A$ 是行动空间， $P$ 为状态转移矩阵， $R$ 为行动期望回报， $\gamma\in[0,1]$ 是折现因子（行动分为确定性策略和非确定性策略）
$r_s^a=E(R_{t+1}|S_t=s,A_t=a)$
策略
$\pi(a|s)=P(A_t=a|S_t=s)$
状态转移矩阵
$p_{ss'}^a=P(S_{t+1}=s'|S_t=s,A_t=a)\\ p_{ss'}=\sum_{a\in A}P(A_t=a|S_t=s)P(S_{t+1}=s'|S_t=s,A_t=a),p_{ss'}^\pi=\sum_{a\in A}\pi(a|s)p_{ss'}^a\\ r_s^\pi=\sum_{a\in A}\pi(a|s)r_s^a$
行动价值函数
$q_\pi(s,a)=E(G_t|S_t=s,A_t=a)\\$
状态价值函数
$v_\pi(s)=\sum_{a\in A}\pi(a|s)q_\pi(s,a)$
行动价值的贝尔曼期望方程
$q_\pi(s,a)=r_s^a+\gamma\sum_{s'\in S}p_{ss'}^a\sum_{a'\in A}\pi(a'|s')q_\pi(s',a')$
状态价值的贝尔曼期望方程
$V_\pi(s)=\sum_{a\in A}\pi(a|s)(r_s^a+\gamma\sum_{s'\in S}p_{ss'}^aV_\pi(s'))\\ V_\pi=r_\pi+\gamma P^\pi V_\pi,V_\pi=(I-\gamma P^\pi)^{-1}r^\pi$
预测问题：计算 $V_\pi$ ，小规模问题：直接解方程求解，大规模问题：用迭代方法求解 $V^{(k+1)}=r^\pi+\gamma P^\pi V^{(K)}$

控制问题：策略的好坏用状态价值来评价： $\pi\geq\pi'$ 如果 $V_\pi(s)\geq V_{\pi'}(s),\forall s$

最优策略： $V_{\pi^*}(s)\geq V_{\pi'}(s),\forall s,\forall \pi'$

最优状态价值： $V_*(s)=V_{\pi^*}(s)$

最优行动价值： $q_*(s,a)= q_{\pi^*}(s,a)$

贪心策略： $\pi(a|s)=1\quad if \quad a=\arg\max q_\pi(s,a)\quad otherwise\quad 0$

状态价值的贝尔曼最优方程
$V_*(s)=\max_{a\in A}(r_s^a+\gamma\sum_{s'\in S}p_{ss'}^aV_*(s'))$
行动价值的贝尔曼最优方程
$q_\pi(s,a)=\arg\max_{a\in A}(r_s^a+\gamma\sum_{s'\in S}p_{ss'}^a\max_{a'\in A}q_*(s',a'))=\arg\max_{a\in A}(r_s^a+\gamma\sum_{s'\in S}p_{ss'}^aV_*(s'))$
求解最优策略：

价值迭代
$V_{k+1}(s)=\max_{a\in A}(r_s^a+\gamma\sum_{s'\in S}p_{ss'}^aV_k(s'))$
策略提取
$\pi_*(s)=\arg\max_{a\in A}(r_s^a+\gamma\sum_{s'\in S}p_{ss'}^aV_*(s'))$