【scikit-learn】scikit-learn的线性回归模型

最新推荐文章于 2024-08-13 01:54:14 发布

JasonDing1354

最新推荐文章于 2024-08-13 01:54:14 发布

阅读量2.5w

点赞数 20

分类专栏：【ML Experiments】机器学习实验文章标签： scikit-learn

本文链接：https://blog.csdn.net/JasonDing1354/article/details/46340729

版权

本文介绍了如何使用scikit-learn进行线性回归模型构建，从pandas读取数据，到构建X和y，训练测试集划分，模型训练及预测。通过实例分析了TV、Radio和Newspaper广告投入对产品销量的影响，强调了线性回归的优缺点，并探讨了特征选择对模型预测效果的重要性，以RMSE作为评价测度。

摘要由CSDN通过智能技术生成

内容概要

如何使用pandas读入数据
如何使用seaborn进行数据的可视化
scikit-learn的线性回归模型和使用方法
线性回归模型的评估测度
特征选择的方法

作为有监督学习，分类问题是预测类别结果，而回归问题是预测一个连续的结果。

1. 使用pandas来读取数据

Pandas是一个用于数据探索、数据处理、数据分析的Python库

    In [1]: 
  

import pandas as pd

    In [2]: 
  

# read csv file directly from a URL and save the results
data = pd.read_csv('http://www-bcf.usc.edu/~gareth/ISL/Advertising.csv', index_col=0)

# display the first 5 rows
data.head()

      Out[2]: 
    

	TV	Radio	Newspaper	Sales
1	230.1	37.8	69.2	22.1
2	44.5	39.3	45.1	10.4
3	17.2	45.9	69.3	9.3
4	151.5	41.3	58.5	18.5
5	180.8	10.8	58.4	12.9

上面显示的结果类似一个电子表格，这个结构称为Pandas的数据帧(data frame)。

pandas的两个主要数据结构：Series和DataFrame：

Series类似于一维数组，它有一组数据以及一组与之相关的数据标签(即索引)组成。
DataFrame是一个表格型的数据结构，它含有一组有序的列，每列可以是不同的值类型。DataFrame既有行索引也有列索引，它可以被看做由Series组成的字典。

    In [3]: 
  

# display the last 5 rows
data.tail()

      Out[3]: 
    

	TV	Radio	Newspaper	Sales
196	38.2	3.7	13.8	7.6
197	94.2	4.9	8.1	9.7
198	177.0	9.3	6.4	12.8
199	283.6	42.0	66.2	25.5
200	232.1	8.6	8.7

最低0.47元/天解锁文章

JasonDing1354

关注

20
点赞
踩
39

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录