超简单的数据分析模板

简单的数据分析--超简易

前言

这里的数据集合我们只针对于excel,其他数据格式之后再进行总结,本片分享包括通过代码导入数据集、对数据集进行切片操作(这一步主要实现得到自变量和因变量)、对于数据集进行训练集和测试集的划分、拟合模型,验证模型。这里没有什么复杂的代码逻辑只是需要记清楚做几件事情的代码语法即可,接下来我们直接上代码。

# 一个简单的一元线性回归模型

# 导入我们需要的几个python包,这里有numpy、matplotlib、pandas
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

# 导入我们需要的数据集
dataset=pd.read_excel(r'绝对路径+文件')
X=dataset.iloc[:,9].tolist()
y=dataset.iloc[:,13].tolist()

# 将数据集划分为训练集与测试集
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 1/3, random_state = 0)

# 特征缩放,如果我们两列的数据规模相差过大需要对数据进行特征缩放
"""from sklearn.preprocessing import StandardScaler
sc_X = StandardScaler()
X_train = sc_X.fit_transform(X_train)
X_test = sc_X.transform(X_test)
sc_y = StandardScaler()
y_train = sc_y.fit_transform(y_train)"""

# 这里用到了机器学习中经典的Scikit-Learn包
from sklearn.linear_model import LinearRegression
regressor = LinearRegression()
regressor.fit(X_train, y_train)

# 经过对模型的拟合,我们这里需要对测试集进行验证
y_pred = regressor.predict(X_test)

# 对训练集进行可视化
plt.scatter(X_train, y_train, color = 'red')
plt.plot(X_train, regressor.predict(X_train), color = 'blue')
plt.title('Salary VS Experience (training set)')
plt.xlabel('Years of Experience')
plt.ylabel('Salary')
plt.show()

# 对测试集进行可视化
plt.scatter(X_test, y_test, color = 'red')
plt.plot(X_train, regressor.predict(X_train), color = 'blue')
plt.title('Salary VS Experience (test set)')
plt.xlabel('Years of Experience')
plt.ylabel('Salary')
plt.show()

总结

这个只是数据分析代码模板中最简单地一个开始,这里我们主要需要掌握数据分析,数据我们怎么去拿,拿到数据之后如何去划分,怎么去处理,最后是怎样去跟模型进行拟合,拟合之后如何对数据进行验证以及可视化。

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值