我们都知道如何在excel里面做出线性规划(data-Data Analysis-regression),那么如何用Python编程语言来实现呢?
我们本次记录一下这个编程实现过程。
首先,读取数据。
记得用Pandas函数库,然后清理数据,去掉任何含有空值的数据行。
import pandas as pd
data = pd.read_csv('house_prices_train.csv')
data = data.dropna(how='any')
nb_rows = len(data)
其次,做一些简单的统计,可以用data的describe函数,返回另外一个data frame
df = data.describe(),用列名,行名调用数据即可,例如最大值、均值、最小值等。
max_Sales_price = df['SalePrice']['max']
min_Garage_Area = df['GarageArea']['min']
fst_quart_lotArea = df['LotArea']['25%']
avg_BedroomAbvGr = df['BedroomAbvGr']['mean']
第三,把数据分成training data和test data。
简单的做法是数据的前60%作为训练,后40%作为测试数据。或者统计结果已经储存在了格式相同的2个文件。
第四