欧氏距离和马尔可夫决策过程理解

欧几里得空间

定义了内积、距离、角

  • 两个向量内积
    统计学习1
    统计学习2

  • 余弦值
    在这里插入图片描述


  • 在这里插入图片描述

  • 点距离
    在这里插入图片描述
    点距离代码

# 法一:
import numpy as np
A = np.array([3,4,5])
B = np.array([7,8,2])
c =np.linalg.norm(A-B)
c
#  6.4031242374328485

# 法二:
import math
def euclidean_distance(A,B):
    return math.sqrt(sum([(a-b)**2 for (a,b) in list(zip(A,B))]))
x = [3,4,5]
y = [7,8,2]
euclidean_distance(x,y)
# 6.4031242374328485

# 法三:
def ecu_dist(a,b):
    return np.sqrt(sum(np.power((a - b), 2)))
x1 = np.array([3,4,5])
y1 = np.array([7,8,2])
ecu_dist(x1,y1)
# 6.4031242374328485

注:zip()函数

a = [1,2,3,4,5]
b = [2,4,6,8,0]
a_b = list(zip(a, b))
a_b
# [(1, 2), (2, 4), (3, 6), (4, 8), (5, 0)]
print(list(zip(*a_b)))
# [(1, 2, 3, 4, 5), (2, 4, 6, 8, 0)]

马尔可夫决策(MDP)

  • 要素包括:状态、动作、策略、奖励
  • 一组交互对象(智能体和环境体)的互动:智能体感知系统状态,按照策略对环境体实现动作,从而改变环境体状态并获得奖励,奖励随时间积累被称为回报
    在这里插入图片描述

在这里插入图片描述
马尔可夫决策过程图模型:在这里插入图片描述

  • 价值函数、动作价值函数:
    在这里插入图片描述
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值