我的offer太恶心了,坚定了我好好学习早日转行的信心。
监督学习:数据被标记,程序从输入数据中预测输出
无监督学习:数据是无标记的,程序学习识别输入数据的固有结构
简介:这主要是一个用线性回归预测蜂蜜产量的例子
一、了解数据
1、我们已经为你从Kaggle下载了关于美国蜂蜜生产的数据。它被称为df,有以下列:
- state
- numcol
- yieldpercol
- totalprod
- stocks
- priceperlb
- prodvalue
- year
第一步我们用.head()查看数据结构:
导入数据 主要用pandas、numpy、linear_model
import codecademylib3_seaborn
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
from sklearn import linear_model
df = pd.read_csv("https://s3.amazonaws.com/codecademy-content/programs/data-science-path/linear_regression/honeyproduction.csv")
print (df.head())
2、现在,我们关心的是每年蜂蜜的总产量。使用panda提供的.groupby()方法来获得每年totalprod的平均值。
将其存储在名为prod_per_year的变量中。
prod_per_year = df.groupby('year').totalprod.mean().reset_index()
3、创建一个名为X的变量,它是prod_per_year DataFrame中的年份列,在prod_per_year数据集中创建一个名为y的变量,它是totalprod列。
创建后,我们将需要重塑它们,使其成为正确的格式:
X = prod_per_year['year']
X = X.valu