python sklearn模型中random_state参数的意义

一、前言
在学习机器学习的过程中,常常遇到random_state这个参数,并且好多时候都是 random_state=42,感觉挺有意思的,于是,百度一下,然后做一个总结。

作用:控制随机状态。

问题:为什么需要用到这样一个参数random_state(随机状态)?看完文章你就会知道了。

一句话概括:random_state是一个随机种子,是在任意带有随机性的类或函数里作为参数来控制随机模式。当random_state取某一个值时,也就确定了一种规则。

random_state可以用于很多函数,我比较熟悉的是用于以下三个地方:

1、训练集测试集的划分

2、构建决策树

3、构建随机森林

 二:random_state的三种应用场所
2.1 划分训练集和测试集的类train_test_split
xtrain,xtest,ytrain,ytest = train_test_split(X,y,test_size=0.2,random_state=42)
随机数种子控制每次划分训练集和测试集的模式,其取值不变时划分得到的结果一模一样,其值改变时,划分得到的结果不同。若不设置此参数,则函数会自动选择一种随机模式,得到的结果也就不同。

2.2 构建决策树的函数
clf = tree.DecisionTreeClassifier(criterion="entropy",random_state=42,splitter="random")
其取值不变时,用相同的训练集建树得到的结果一模一样,对测试集的预测结果也是一样的;

其值改变时,得到的结果不同;

若不设置此参数,则函数会自动选择一种随机模式,每次得到的结果也就不同。

2.3 构建随机森林
clf = RandomForestClassifier(random_state=0)
其取值不变时,用相同的训练集建森林得到的结果一模一样,对测试集的预测结果也是一样的;

其值改变时,建森林得到的结果不同;

若不设置此参数,则函数会自动选择一种随机模式,每次得到的结果也就不同。

2.4 小结
如果你希望结果可以重现,固定random_state是非常重要的。

对于随机森林这个模型,它本质上是随机的,设置不同的随机状态(或者不设置random_state参数)可以彻底改变构建的模型。
对于数据集的生成,它本质上也是随机的,设置不同的随机状态(或者不设置random_state参数)可以彻底改变生成的数据集。
对于数据集的拆分,它本质上也是随机的,设置不同的随机状态(或者不设置random_state参数)可以彻底改变拆分的结果。

固定random_state后,每次构建的模型是相同的、生成的数据集是相同的、每次的拆分结果也是相同的。

三、总结
对于那些本质上是随机的过程,我们有必要控制随机的状态,这样才能重复的展现相同的结果。如果,对随机状态不加控制,那么实验的结果就无法固定,而是随机的显现。

因为同一算法模型在不同的训练集和测试集的会得到不同的准确率,无法调参。所以在sklearn 中可以通过添加random_state,通过固定random_state的值,每次可以分割得到同样训练集和测试集。因此random_state参数主要是为了保证每次都分割一样的训练集和测试机,大小可以是任意一个整数,在调参缓解,只要保证其值一致即可。

所以,至于random_state=?随你喽
 

### YOLOv1 和 YOLOv2 的论文总结 #### YOLOv1 (You Only Look Once) YOLOv1 是一种单阶段的目标检测方法,它通过将目标检测视为一个回归问题来实现端到端训练。以下是其主要特点: - **统一框架**:YOLOv1 将整个图像划分为 S×S 的网格,并预测每个网格单元中的 B 个边界框及其置信度分数以及 C 类别的条件概率[^2]。 - **损失函数**:YOLOv1 使用了一个多部分的损失函数,该函数由坐标误差、宽高误差、置信度误差和类别误差组成。具体来说,对于有对象的网格单元,模型会惩罚预测框中心坐标的偏差;而对于无对象的网格,则更关注降低置信度得分。 - **优点与局限性**: - 高效实时处理能力使其成为视频流分析的理想选择。 - 存在较多定位错误,尤其是在复杂场景下表现不佳。 - 召回率低于基于区域提议的方法如 Faster R-CNN 等。 ```python def yolo_v1_loss(predictions, targets): lambda_coord = 5 lambda_noobj = 0.5 # 坐标误差项权重较大 coord_loss = lambda_coord * ((predictions[:, :, :2] - targets[:, :, :2])**2).sum() # 宽高误差平方根形式减少大框影响 size_loss = lambda_coord * (((torch.sqrt(predictions[:, :, 2:4]) - torch.sqrt(targets[:, :, 2:4]))**2).sum()) # 对象存在与否的置信度损失 obj_confidence_loss = ((predictions[:, :, 4] - targets[:, :, 4])**2).sum() no_obj_confidence_loss = lambda_noobj * ((predictions[:, :, 5:] - targets[:, :, 5:])**2).sum() class_loss = ((predictions[:, :, :] - targets[:, :, :])**2).sum() total_loss = coord_loss + size_loss + obj_confidence_loss + no_obj_confidence_loss + class_loss return total_loss ``` --- #### YOLOv2 (YOLO9000) YOLOv2 在保持速度的同时显著提高了精度,引入了许多改进措施: - **Batch Normalization**:每一层都加入了批量标准化操作,这不仅加速收敛还减少了正则化需求[^1]。 - **High Resolution Classifier**:先用 ImageNet 数据集预训练一个更高分辨率(448x448)下的分类器再微调至检测任务上,从而提升泛化性能。 - **Anchor Boxes & Dimension Clusters**:采用聚类技术生成锚点框代替固定大小候选窗口,使得模型能够更好地适应不同形状物体尺寸分布特性。 - **Direct Location Prediction**:为了稳定训练过程并提高位置预测准确性,直接让网络输出偏移量而非绝对值作为最终结果的一部分输入给后续计算模块使用。 - **Multi-Scale Training**:随机调整网络输入图片尺度范围内的任意合法数值来进行动态切换学习策略,增强鲁棒性和灵活性。 ```python import numpy as np class AnchorBoxGenerator: def __init__(self, k=5): self.k = k def iou(self, box1, box2): xi1 = max(box1[0], box2[0]) yi1 = max(box1[1], box2[1]) xi2 = min(box1[2], box2[2]) yi2 = min(box1[3], box2[3]) inter_area = max(0, xi2-xi1) * max(0, yi2-yi1) box1_area = (box1[2]-box1[0])*(box1[3]-box1[1]) box2_area = (box2[2]-box2[0])*(box2[3]-box2[1]) union_area = float(box1_area + box2_area - inter_area) return inter_area / union_area if union_area != 0 else 0 def generate_anchors(self, boxes): cluster_centers = [] distances = [] while len(cluster_centers)<self.k: new_center_idx=np.argmin([np.mean([self.iou(b,c)**2 for b in boxes])for c in cluster_centers or [None]]) cluster_centers.append(boxes[new_center_idx].copy()) return cluster_centers ``` --- ###
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值