下面代码主要包括CSV以及txt文件的读写和清理(将离散变量用数字代替)
# -*- coding: utf-8 -*-
import numpy as np
import pandas as pd
def loadData(filename):
'''
用于读取CSV或txt文件
'''
dataMat = []
fr = open(filename)
for line in fr.readlines():
lineArr = line.strip().split(',')#确定列与列之间的分隔符号,CSV文件为逗号
lineArr = np.array(lineArr)
#lineArr = map(float,lineArr)
dataMat.append(lineArr)
fr.close()
return np.array(dataMat)
def clearData(data):
'''
描述:将data中的离散变量用数字表示
输入:待清理数据(第一行不带列标题)
'''
for j in range(data.shape[1]):
cj_list = list(set(data[:,j]))#数据部分第j列的独特元素的列表
for i in range(len(data)):
for k in range(len(cj_list)):
if data[i,j] == cj_list[k]:
data[i][j] = cj_list.index(cj_list[k])
x = loadData('D:\\jnc\\data.csv')
clearData(x)
y = pd.DataFrame(x)
y.to_csv('D:\\jnc\\new.csv')#将x写入CSV文件
#np.savetxt('D:\\jnc\\new.txt,x,delimiter=',')#将x写入txt文件