一:从各种不同的格式文件中导入数据,总结目前最常用的文件格式导入数据的一些方法:
# -*- coding:utf-8 -*-
from numpy import *
def loadDataSet(fileName):
'''导入数据'''
numFeat = len(open(fileName).readline().split('\t')) - 1
dataMat = []
labelMat = []
fr = open(fileName)
for line in fr.readlines():
lineArr = []
curLine = line.strip().split('\t')
for i in range(numFeat):
lineArr.append(float(curLine[i]))
dataMat.append(lineArr)
labelMat.append(float(curLine[-1]))
return dataMat, labelMat
# def loadDataSet(fileName):
# numFeat = len(open(fileName).readline().split('\t')) # 计算有多少列
# dataMat = []
# labelMat = []
# fr = open(fileName)
# for line in fr.readlines(): # 遍历原始数据集每一行
# lineArr =[]
# curLine = line.strip().split('\t') # 是一列表类型
# for i in range(numFeat-1): # numFeat - 1的原因:因为原始数据的最后一列是类别,不是属性数据
# lineArr.append(float(curLine[i])) # 一个一个传进lineArr列表向量
# dataMat.append(lineArr) # 再传进dataMat列表向量
# labelMat.append(float(curLine[-1])) # 写进标签列表
# return dataMat, labelMat
if __name__ == "__main__":
'''线性回归'''
datafile = u'E:\\learningnotes\\programing\\big data\\MLaction_master\\Ch08_LinearRegression\\ex0.txt'
#datafile = 'ex0.txt'
xArr, yArr = loadDataSet(datafile)
#xArr, yArr = loadDataSet('ex0.txt')
print('xArr= \n', yArr)
print('yArr= \n', yArr)
注意事项:
&