要操作的元数据:
链接:http://pan.baidu.com/s/1chirUI
密码:6ac0
我们的目标是得到:工作时间和薪水之间的关系。
========================
Python
选择好目标文件:
然后运行下面的代码
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
#import dataset
dataset = pd.read_csv('Salary_Data.csv')
我们需要得到二者之间的关系。所以设置为X 、Y
并且通过数据分割来判断我们做的预测是否准确。
如果看不大明白,请看博客:http://blog.csdn.net/wiki_su/article/details/78411106
上面在数据预处理中做了比较详细的介绍
X = dataset.iloc[:,:-1].values
Y = dataset.iloc[:,1].values
#数据分割
from sklearn.cross_validation import train_test_split
X_train,X_test,Y_trai