一、将一个大文件按工作组中成员数量拆分为小文件,并以小组人名作为文件名
知识点:
向上取整,np.ceil()函数 ;
数据切片 df.iloc[],后边是方括号,行与列只能是数字,获取连续多行:df.iloc[0:6]
df.loc[] ,根据数据集中index 和 columns 中获取数据
思路:
1、读取文件 df = pd.read_csv('./文件名',encoding='gbk')
2、成员写到列表里 people = ['zs','ls',...]
3、每一张表里的数据量 = 数据量 / 人数 = df.shape[0]/len(people)
4、通过for index,name in enumerate(people)方法,拿到索引和值
5、确定新表里数据 data = df.iloc[begin:end]
6、保存到csv文件里:data.to_csv('文件名{].csv'.format(name))
二、数据处理完毕后数据合并,并在新数据集中增加 name 一列
知识点:
判断文件夹是否存在:os.path.exists(文件路径)
读取文件夹内内容:os.listdir(文件路径)
将文件与路径组合起来:os.path.join(路径,文件名)
字符串替换:str.replace('要替换的','新的')
表的连接:concat
读取文件后