利用python清理CSV和txt格式数据(附代码)

下面代码主要包括CSV以及txt文件的读写和清理(将离散变量用数字代替)

# -*- coding: utf-8 -*-
import numpy as np
import pandas as pd

def loadData(filename):
'''
用于读取CSV或txt文件
'''

    dataMat = []
    fr = open(filename)
    for line in fr.readlines():
        lineArr = line.strip().split(',')#确定列与列之间的分隔符号,CSV文件为逗号
        lineArr = np.array(lineArr)
        #lineArr = map(float,lineArr)
        dataMat.append(lineArr)
    fr.close()
    return np.array(dataMat)

def clearData(data):
'''
描述:将data中的离散变量用数字表示
输入:待清理数据(第一行不带列标题)
'''
    for j in range(data.shape[1]):
        cj_list = list(set(data[:,j]))#数据部分第j列的独特元素的列表
        for i in range(len(data)):
            for k in range(len(cj_list)):
                if data[i,j] == cj_list[k]:
                    data[i][j] = cj_list.index(cj_list[k])

x = loadData('D:\\jnc\\data.csv')
clearData(x)

y = pd.DataFrame(x)
y.to_csv('D:\\jnc\\new.csv')#将x写入CSV文件

#np.savetxt('D:\\jnc\\new.txt,x,delimiter=',')#将x写入txt文件
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值