实验名称
数据挖掘与数据分析应用
实验目的
- 了解挖掘算法的理论基础
- 了解线性回归算法,并通训练数据进行预测
- 掌握数据分析常用框架的使用
- 在实际应用能对数据进行分析,并绘图分析
实验原理
回归在数学上来说是给定一个点集,能够用一条曲线去拟合之,如果这个曲线是一条直线,那就被
称为线性回归,如果曲线是一条二次曲线,就被称为二次回归,回归还有很多的变种。线性回归使用最
佳的拟合直线(也就是回归线)在因变量(Y)和一个或多个自变量(X)之间建立一种关系。用一个方
程式来表示它,即Y=a+b*X + e,其中a表示截距,b表示直线的斜率,e是误差项。这个方程可以根据给定
的预测变量(s)来预测目标变量的值。
Pandas 是 Python 语言的一个扩展程序库,用于数据分析。Pandas 可以对各种数据进行运算操作,
比如归并、再成形、选择,还有数据清洗和数据加工特征。
Matplotlib 是一个 Python 的 2D绘图库,它以各种硬拷贝格式和跨平台的交互式环境生成出版质量级
别的图形,matplotlib的相关配置和基本统计图形的可视化展示,进行绘图分析数据。
实验环境及数据和代码
PyCharm
链接:https://pan.baidu.com/s/1XEgv0kqNypEOBWg6tli54Q
提取码:4ls2
实验内容
第一部分:数据挖掘建模
线性回归建模预测体重:
- 安装依赖
pip install sklearn -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install pandas -i https://pypi.tuna.tsinghua.edu.cn/simple
- 引入 pands 包和线性模型 linear_model
import pandas as pd from sklearn import linear_model
- 实例化线性回归算法模型
#线性回归算法模型 y = ax + b --> 通过训练求出最匹配的a和b
model =