Python实现取行数据（例如10行，取出不同的9行组合，第一次不要第一行，第二次不要第二行........第三次不要第三行）

zhou_x_b

已于 2023-05-27 18:30:18 修改

阅读量391

点赞数

文章标签： python 开发语言机器学习

于 2023-05-27 17:18:22 首次发布

本文链接：https://blog.csdn.net/qq_34815075/article/details/130903567

版权

该文介绍了使用Python的pandas库进行数据处理的方法，特别是对大数据集的循环切片操作，每次取出99个数据，然后展示如何通过concat和drop_duplicates函数去除重复项，涉及数据预处理和机器学习模型的基础步骤。

摘要由CSDN通过智能技术生成

问题：
有很多数据，比如100个数据，每次取出99个，还不是随机取99个，依次取数据，比如0,1,2,3,…,100行，第一次取出1,2,…,100行，第二次取出0,2,3,…,100,第三次取出0,1,3,…,100,依次类推。
解决：
1、取数据一般考虑切片data[,]
2、循环实现

import pandas as pd
import numpy as np
import math
from scipy.stats import ttest_1samp
from sklearn.model_selection import train_test_split
from sklearn import metrics
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
import os
#用一个文件测试

path=r"F:\***\***\***"
pathDir = os.listdir(path)

for f in pathDir:
    data = pd.read_csv(os.path.join(path, f))
    for i in range(0,len(data)):#data[0:1]
            #print(data[i:i+1])
            df1 = data
            df2 = data[i:i+1]
            set_diff_df = pd.concat([df2, df1]).drop_duplicates(keep=False)  # 实现合并后去除相同的数据列不保留
            print(set_diff_df)