超简单的数据分析模板

最新推荐文章于 2022-05-21 13:24:16 发布

ELGTZ

最新推荐文章于 2022-05-21 13:24:16 发布

阅读量1k

点赞数 1

分类专栏：数据分析杂想文章标签：机器学习 python 数据分析

本文链接：https://blog.csdn.net/GTZ_0724/article/details/115502744

版权

数据分析杂想专栏收录该内容

1 篇文章 0 订阅

订阅专栏

简单的数据分析--超简易

前言
总结

前言

这里的数据集合我们只针对于excel，其他数据格式之后再进行总结，本片分享包括通过代码导入数据集、对数据集进行切片操作（这一步主要实现得到自变量和因变量）、对于数据集进行训练集和测试集的划分、拟合模型，验证模型。这里没有什么复杂的代码逻辑只是需要记清楚做几件事情的代码语法即可，接下来我们直接上代码。

# 一个简单的一元线性回归模型

# 导入我们需要的几个python包，这里有numpy、matplotlib、pandas
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

# 导入我们需要的数据集
dataset=pd.read_excel(r'绝对路径+文件')
X=dataset.iloc[:,9].tolist()
y=dataset.iloc[:,13].tolist()

# 将数据集划分为训练集与测试集
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 1/3, random_state = 0)

# 特征缩放，如果我们两列的数据规模相差过大需要对数据进行特征缩放
"""from sklearn.preprocessing import StandardScaler
sc_X = StandardScaler()
X_train = sc_X.fit_transform(X_train)
X_test = sc_X.transform(X_test)
sc_y = StandardScaler()
y_train = sc_y.fit_transform(y_train)"""

# 这里用到了机器学习中经典的Scikit-Learn包
from sklearn.linear_model import LinearRegression
regressor = LinearRegression()
regressor.fit(X_train, y_train)

# 经过对模型的拟合，我们这里需要对测试集进行验证
y_pred = regressor.predict(X_test)

# 对训练集进行可视化
plt.scatter(X_train, y_train, color = 'red')
plt.plot(X_train, regressor.predict(X_train), color = 'blue')
plt.title('Salary VS Experience (training set)')
plt.xlabel('Years of Experience')
plt.ylabel('Salary')
plt.show()

# 对测试集进行可视化
plt.scatter(X_test, y_test, color = 'red')
plt.plot(X_train, regressor.predict(X_train), color = 'blue')
plt.title('Salary VS Experience (test set)')
plt.xlabel('Years of Experience')
plt.ylabel('Salary')
plt.show()

总结

这个只是数据分析代码模板中最简单地一个开始，这里我们主要需要掌握数据分析，数据我们怎么去拿，拿到数据之后如何去划分，怎么去处理，最后是怎样去跟模型进行拟合，拟合之后如何对数据进行验证以及可视化。

ELGTZ

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
2
评论
超简单的数据分析模板

简单的数据分析--超简易前言一、pandas是什么？二、使用步骤1.引入库2.读入数据总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。提示：以下是本篇文章正文内容，下面案例可供参考一、pandas是什么？示例：pandas 是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。二、使用步骤1.引入库代码如下（示例）：import numpy as np
复制链接

扫一扫