(1) 利用pandas熟悉数据
import pandas as pd
了解 DataFrame 的概念
看做一个表格
重要方法:
取数据
data = pd.read_csv('路径')
数据表述 (count mean std min 25%... max)
data.describe()
显示 列
data.columns
去除缺省数值的数据
data = data.dropna(axis=0)
(2) 选择预测目标
点表示法 单列存储在 Series 中
y = data.price
feature = ['sss','aaa','qqq']
X=data[frature]
X.head()
(3) 建立模型
利用scikit-learn 库 写作sklearn
步骤:
1. define
2. fit
3. predict
4. evaluate
eg 决策树模型
from sklearn.tree import DecisionTreeRegressor # Define model. Specify a number for random_state to ensure same results each run model = DecisionTreeRegressor(random_state=1) # Fit model model.fit(X, y) 模型预测 print(X.head()) print(model.predict(X.head()))