内容概要
- 如何使用pandas读入数据
- 如何使用seaborn进行数据的可视化
- scikit-learn的线性回归模型和使用方法
- 线性回归模型的评估测度
- 特征选择的方法
作为有监督学习,分类问题是预测类别结果,而回归问题是预测一个连续的结果。
1. 使用pandas来读取数据
Pandas是一个用于数据探索、数据处理、数据分析的Python库
In [1]:
import pandas as pd
In [2]:
# read csv file directly from a URL and save the results
data = pd.read_csv('http://www-bcf.usc.edu/~gareth/ISL/Advertising.csv', index_col=0)
# display the first 5 rows
data.head()
Out[2]:
上面显示的结果类似一个电子表格,这个结构称为Pandas的数据帧(data frame)。
pandas的两个主要数据结构:Series和DataFrame:
- Series类似于一维数组,它有一组数据以及一组与之相关的数据标签(即索引)组成。
- DataFrame是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型。DataFrame既有行索引也有列索引,它可以被看做由Series组成的字典。
In [3]:
# display the last 5 rows
data.tail()
Out[3]: