1、读取CSV文件
import pandas as pd
df = pd.read_csv('course-5-boston.csv')
df.head() #读取前五行
df.tail() #读取后五行
df.describe() #显示对应数据的平均值,中位数等信息
# df对数据分为训练集和测试集:
split_num = int(len(df)*0.7)
特征x, features:train_x=features[:split_num], test_x = features[split_num:]
标签y,label:train_y=label[:split_num], test_y=label[split_num:]
from sklearn.linear_model import **LinearRegression**
model = LinearRegression() # 建立模型
model.fit(train_x, train_y) # 训练模型
model.coef_, model.intercept_ # 输出训练后的模型参数和截距项
preds = model.predict(test_x) # 输入测试集特征进行预测
features = df[['公交','写字楼','医院', '商场', '地铁', '学校', '建造时间', '楼层', '面积']]
target = df['每平米价格']
pd.concat([features, target], axis=1) #对两个进行列拼接,组成一个新的csv格式的文件
2、在区间[start, end]均匀取num个点
np.linespace(start, end, num)
3、画二维坐标的散点图
plt.scatter(x, y)
4、画散点图,但是点有类用于画分类的散点图
plt.scatter(x, y, c=z, cmap=‘bwr’)
5、通过 PolynomialFeatures