本人完全小白,这篇文章仅作为一个学习记录,参考的kaggle官网教程。如有大神路过欢迎指教。
话不多说直接开始,进入网站之后,可以打开一个自己的notebook,因为是新手暂时不用自己导入数据,可以用它现成的,比赛的话也是它会导入好的。
ps.dataframe表格型数据
from learntools.core import binder binder.bind(globals()) from learntools.machine_learning.ex2 import * print("Setup Complete")
这一段是SETUP,系统提供的,暂时不知道具体是啥,暂且不提。
step1:loading the data
import pandas as pd
# Path of the file to read
iowa_file_path = '../input/home-data-for-ml-course/train.csv'
# Fill in the line below to read the file into a variable home_data
home_data = pd.read_csv(iowa_file_path)
# Call line below with no argument to check that you've loaded the data correctly
step_1.check()
这一段里最重要的就是pd.read_csv这个函数,通过该函数我们读取了csv里面的数据(kaggle上的数据是以csv格式处理的)
step2 review the data
home_data.describe()
通过这个函数可以看到每列的最大值、平均值等等
下一篇:2.第一个机器学习模型