【scikit-learn】scikit-learn的线性回归模型

本文介绍了如何使用scikit-learn进行线性回归模型构建,从pandas读取数据,到构建X和y,训练测试集划分,模型训练及预测。通过实例分析了TV、Radio和Newspaper广告投入对产品销量的影响,强调了线性回归的优缺点,并探讨了特征选择对模型预测效果的重要性,以RMSE作为评价测度。
摘要由CSDN通过智能技术生成


内容概要

  • 如何使用pandas读入数据
  • 如何使用seaborn进行数据的可视化
  • scikit-learn的线性回归模型和使用方法
  • 线性回归模型的评估测度
  • 特征选择的方法

作为有监督学习,分类问题是预测类别结果,而回归问题是预测一个连续的结果。

1. 使用pandas来读取数据

Pandas是一个用于数据探索、数据处理、数据分析的Python库

In [1]:
import pandas as pd
In [2]:
# read csv file directly from a URL and save the results
data = pd.read_csv('http://www-bcf.usc.edu/~gareth/ISL/Advertising.csv', index_col=0)

# display the first 5 rows
data.head()
Out[2]:
  TV Radio Newspaper Sales
1 230.1 37.8 69.2 22.1
2 44.5 39.3 45.1 10.4
3 17.2 45.9 69.3 9.3
4 151.5 41.3 58.5 18.5
5 180.8 10.8 58.4 12.9

上面显示的结果类似一个电子表格,这个结构称为Pandas的数据帧(data frame)。

pandas的两个主要数据结构:Series和DataFrame:

  • Series类似于一维数组,它有一组数据以及一组与之相关的数据标签(即索引)组成。
  • DataFrame是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型。DataFrame既有行索引也有列索引,它可以被看做由Series组成的字典。
In [3]:
# display the last 5 rows
data.tail()
Out[3]:
  TV Radio Newspaper Sales
196 38.2 3.7 13.8 7.6
197 94.2 4.9 8.1 9.7
198 177.0 9.3 6.4 12.8
199 283.6 42.0 66.2 25.5
200 232.1 8.6 8.7
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值