目录下有如图60个txt文件,每个txt文件里的数据大概有7000万行
目的:把每个txt文件里的数据去重后合并60个文件为一个总文件,然后把总文件里的数据按第一列、第二列分组
第三列求去重后出现的次数
每个文件的内容如下:
代码如下:
# -*- coding:utf-8 -*-
from datetime import datetime
import pandas as pd
import os
def Main():
sourcr_dir = '/ford_tongji/uaad/'
target_dir = '/ford/ford_tongji/uaad/distinct/'
target_txt = '/ford/ford_tongji/uaad/distinct/merge_