随机抽取数据作验证集validation

#coding=utf-8
#随机选取图像作为验证集val
import os
import random 
import cv2

file1 = '/home//img/'
valfile = '/home//val/'
valnum = 4   #val集的大小

#这个check函数用以检查产生的随机的图像名称里有没有重名的,重复的话,写入新的文件夹下图像就会被覆盖,使得val的图像数量不等于valnum。
def check(random_list):
    a = 0
    for i in range(len(random_list)):
        for j in range(len(random_list)):
            if random_name_list[i] == random_name_list[j]:
                a += 1
    return a
    
name_list = list( name for name in os.listdir(file1))
random_name_list = list(random.choice(name_list) for _ in range(valnum)) 
a = check(random_name_list)
while a > len(random_name_list):   #按道理,没有重名图像的话,那么a就等于len(random_name_list)的
    random_name_list = list(random.choice(name_list) for _ in range(valnum))   #有重复,重新生成random list。
    a = check(random_name_list) 
print (random_name_list)
for i in range(len(random_name_list)):   
    img = cv2.imread(file1 + random_name_list[i], -1)
    cv2.imwrite(valfile + random_name_list[i], img)

在机器学习中,通常会将数据集划分为训练集、验证集和测试集三部分。可以使用 Apache Spark 中的 `randomSplit()` 方法和 `sample()` 方法来实现这一目标。 以下是一个简单的示例代码: ```python # 导入需要的库 from pyspark.sql.functions import * from pyspark.sql.types import * # 创建一个 DataFrame data = spark.createDataFrame([(1, "John", 0), (2, "Jane", 1), (3, "Alice", 1), (4, "Bob", 0), (5, "Charlie", 1)], ["id", "name", "label"]) # 划分数据集 weights = [0.6, 0.2, 0.2] train_data, val_data, test_data = data.randomSplit(weights, seed=1234) # 打印训练集、验证集和测试集的数据量 print("Training data count:", train_data.count()) print("Validation data count:", val_data.count()) print("Test data count:", test_data.count()) # 从训练集中抽取一部分数据验证集 sample_fraction = 0.5 sampled_train_data = train_data.sample(False, sample_fraction, seed=1234) remaining_train_data = train_data.subtract(sampled_train_data) # 打印抽样后的训练集和剩余的训练集的数据量 print("Sampled training data count:", sampled_train_data.count()) print("Remaining training data count:", remaining_train_data.count()) ``` 在这个示例代码中,我们创建了一个包含 5 条数据的 DataFrame。然后使用 `randomSplit()` 方法将数据集按 6:2:2 的比例划分为训练集、验证集和测试集。接着,我们使用 `sample()` 方法从训练集中抽取一部分数据验证集。最后,我们打印了训练集、验证集和测试集的数据量,以及抽样后的训练集和剩余的训练集的数据量。 需要注意的是,划分数据集时,需要指定一个随机种子(seed),以保证每次划分的结果都是一致的。同时,抽样时也需要指定一个随机种子。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值