问题:
有很多数据,比如100个数据,每次取出99个,还不是随机取99个,依次取数据,比如0,1,2,3,…,100行,第一次取出1,2,…,100行,第二次取出0,2,3,…,100,第三次取出0,1,3,…,100,依次类推。
解决:
1、取数据一般考虑切片data[,]
2、循环实现
import pandas as pd
import numpy as np
import math
from scipy.stats import ttest_1samp
from sklearn.model_selection import train_test_split
from sklearn import metrics
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
import os
#用一个文件测试
path=r"F:\***\***\***"
pathDir = os.listdir(path)
for f in pathDir:
data = pd.read_csv(os.path.join(path, f))
for i in range(0,len(data)):#data[0:1]
#print(data[i:i+1])
df1 = data
df2 = data[i:i+1]
set_diff_df = pd.concat([df2, df1]).drop_duplicates(keep=False) # 实现合并后去除相同的数据列不保留
print(set_diff_df)