1 问题
现在有这样一个需求,在一份记录着微信聊天记录的 csv 文件中,去除同一天同一个人发的相同消息的记录。
2 实现代码
# -*- coding: utf-8 -*-
import pandas as pd
import os
from tqdm import *
class DeleteRepetition:
def __init__(self, finished_filedir='newdata'):
'''
初始化数据清洗后的csv文件保存地址
:param finished_filedir: 保存路径
'''
self.finished_filedir = finished_filedir
def deleteCsvRepetition(self, filename):
'''
将单个csv文件以ID,时间,消息为主键,去除同天同的人发的相同的话
:param filename:文件名
:return:null
'''
# 读取csv文件
try:
csvfile = pd.read_csv(filename, encoding="utf-8")
# print(csvfile)
except Exception:
raise Exception('file is not found!')
# 第一行没有数据,去除
csvfile = csvfile[1:]
# print(csvfile)