抽样技术学习笔记

本文介绍了统计学中的四种抽样技术:简单随机抽样、分层抽样和整群抽样(包括单阶段和两阶段)。简单随机抽样是最基础的方法,而分层抽样则是先将总体分为不同类型,再进行抽样。整群抽样则以群为单位进行抽样,可以是单阶段或两阶段,后者包括先选择群,再从群内随机选取个体。这些抽样方法在不同场景下各有优势,有助于提高样本代表性。

转载:https://zhuanlan.zhihu.com/p/379803555
1.抽样技术分为:
(1)简单随机抽样;
(2)分层抽样;
(3)整群抽样:是将总体中各单位归并成若干个互不交叉、互不重复的集合(称之为群),然后以群为抽样单位随机抽取样本,抽取到的群内的所有个体都进入调查的一种抽样方式。在整群抽样中,抽样的基本单位已经不再是个体,而是由部分个体组成的群。

单阶段整群抽样:随机选择整群并调查整群中的每一个成员。
两阶段整群抽样:首先随机选择整群,然后从被选中的整群中随机选择成员。
(4)系统抽样等。

2.Stratified Random Sampling分层随机抽样
(1)定义

  • 百度解释为:又称类型随机抽样,它是先将总体各单位按一定标准分成各种类型(或层);然后根据各类型单位数与总体单位数的比例,确定从各类型中抽取样本单位的数量;最后,按照随机原则从各类型中抽取样本。
  • 分层随机抽样是一种抽样方法,将一个群体根据共同的行为或特征划分为一个或多个不同的单元,称为“地层”。

(2)实现方法
https://blog.csdn.net/gezongbo/article/details/122509904

深度强化学习是机器学习的一个分支,它结合了深度学习的感知能力与强化学习的决策机制。在深度强化学习中,智能体通过与环境交互来学习策略,以最大化累积奖励。这种方法特别适用于处理具有高维状态空间的问题,如游戏控制、机器人导航等[^3]。 ### Q-Learning Q-Learning 是一种模型无关的强化学习算法,用于解决马尔可夫决策过程(MDP)中的问题。该算法的目标是在不知道环境动态的情况下找到一个最优动作策略。Q-Learning 使用一个称为 Q 表的二维数组来存储每个状态-动作对的价值。更新规则基于 Bellman 方程,并引入了学习率和折扣因子来调整新信息的重要性以及未来奖励的重要性[^1]。 #### 学习率 (Learning Rate) 学习率决定了新获得的信息能够改变已有估计的程度。较高的学习率意味着新的信息将更快地覆盖旧的估计值,而较低的学习率则会让系统更倾向于保留历史经验。 #### 折扣因子 (Discount Factor) 折扣因子用来衡量未来的奖励相对于当前奖励的重要性。如果折扣因子接近 1,则表明未来的奖励几乎与即时奖励一样重要;反之,如果折扣因子较小,则更重视眼前的奖励。 ### DQN 算法 DQN(Deep Q-Network)算法是将深度神经网络应用于 Q-Learning 的一种方法。由于传统的 Q-Learning 在面对大规模或连续的状态空间时表现不佳,因为此时无法维护一个完整的 Q 表。DQN 则利用神经网络来近似 Q 函数,从而解决了这个问题。此外,DQN 还引入了经验回放机制和固定目标网络两种技术来提高训练的稳定性和效率[^3]。 #### 经验回放 (Experience Replay) 经验回放机制允许智能体从过去的经历中随机抽样进行学习,这有助于打破数据间的相关性,减少更新的相关性,使得训练更加平稳。 #### 目标网络 (Target Network) 目标网络是一个结构相同但更新频率较低的神经网络,它用来计算目标 Q 值。这样做的目的是为了保持目标值的稳定性,避免由于频繁更新导致的训练不稳定。 ### 实现示例 下面是一个简化的 Q-Learning 算法实现的例子,用于解决二维迷宫寻路问题: ```python # 初始化Q表 q_table = np.zeros([num_states, num_actions]) # Q-learning algorithm for episode in range(total_episodes): state = env.reset() done = False while not done: # 选择动作 action = choose_action(state, q_table) # 执行动作并观察下一个状态和奖励 next_state, reward, done, _ = env.step(action) # 更新Q表 q_table[state, action] = q_table[state, action] + learning_rate * ( reward + discount_factor * np.max(q_table[next_state, :]) - q_table[state, action] ) state = next_state ``` 这个简单的例子展示了如何使用 Q-Learning 来解决一个小规模的强化学习问题。对于更为复杂的应用场景,可能需要采用像 DQN 这样的深度强化学习方法。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值