python回归问题数据处理问题--自变量

用各种回归模型进行建模之前最重要的就是处理数据,今天我想对机票价格和时间进行建模,自变量是时间。我用了list放时间数据,同样用list放价格数据。看下时间数据的数据格式:


然后进行fit

clf=linear_model.Ridge(alpha=1.0)    
for j in range(T):
     clf.fit(label0,minprice)
发现会报错:


大概意思就是我的自变量shape只有1~但是明明我是一个不止一个字段的list啊!!仔细思考一下明白了:处理的时候python把整个list当做一个整体处理了,这样就不符合自变量和因变量大小相同的要求了。。。

接着找了一下别人处理数据的方式

# Function to get data
def get_data(file_name):
 data = pd.read_csv(file_name)
 X_parameter = []
 Y_parameter = []
 for single_square_feet ,single_price_value in zip(data['square_feet'],data['price']):
       X_parameter.append([float(single_square_feet)])
       Y_parameter.append(float(single_price_value))
 return X_parameter,Y_parameter
注意倒数第三行
X_parameter.append([float(single_square_feet)])

这里每次append之前加了一个[],其实就是用了嵌套的list,这样就不会把整个list看成一个数据字段了!!看一下这样做的数据格式:(没有截图,示意一下)

[['2015-09-21'],['2015-09-22']]


另外还有一种方法label=mat(label).T,就是把数据转化成一个矩阵。。。虽然并不太理解这样做的道理。。。

展开阅读全文

没有更多推荐了,返回首页