数据的导入和内存管理
1.数据表文件的读取
由于现在大多数系统内存都在几个G,因此小点的数据表处理比较简单,可以直接读入内存并结构化
下面例子是用python读取数据表文件,并将其存到矩阵中,并输出矩阵的行、列数
# -*- coding: utf-8 -*-
import sys
import os
from numpy import *
# 配置utf-8输出环境
reload(sys)
sys.setdefaultencoding('utf-8')
#数据文件转矩阵
# path: 数据文件路径
# delimiter: 文件分隔符
def file2matrix(path,delimiter):
recordlist = []
fp = open(path,"rb") # 读取文件内容
content = fp.read()
fp.close()
rowlist = content.splitlines() # 按行转换为一维表
# 逐行遍历
# 结果按分隔符分割为行向量
recordlist =[ row.split(delimiter) for row in rowlist if row.strip()]
return mat(recordlist) # 返回转换后的矩阵形式
root = "testdata" #数据文件所在路径
pathlist = os.listdir(root) # 获取路径下所有数据文件
for path in pathlist:
recordmat = file2matrix(root+"/"+